湖仓一体提升管理效率培育数据沃土-白红宇

湖仓一体提升管理效率培育数据沃土

阅读量：4042 次

发布时间：2019-05-24

本文共 2805 字，大约阅读时间需要 9 分钟。

湖仓一体需要计算存储分离的架构，以解决数据容量及数据计算灵活扩展的业务要求，同时云化和数据平台化的能力可以有效提升整体管理效率。SIGMOD2021中有多个非常值得关注的技术架构课题，期待与大家一起进行前沿的学术探索及交流。

21世纪是数据爆炸的时代，无论是数据的总量和类型，还是数据处理的实时性，均对原有数据库带来了极大的冲击。这对数据库开发人员来说既是福音，更是挑战。福音在于体现了个人的价值，饭碗不愁；挑战在于要扩展已有知识，更新技术，解决新的问题。

我有幸在数据库行业摸爬滚打了近20年：从事过大型计算机的数据库管理员；在IBM DB2做了十余年内核架构设计师，参与开发过OLTP, MPP（share nothing 数仓）, pureScale(share everything 集群), Blue (for analytic) 等不同类型数据库的研发；曾担任华为数据库专家组成员，领导团队从事数据平台软硬件一体研发。2018年组建了巨杉北美实验室，把学术前沿和业界领先的技术引入巨杉，聚焦数据库服务云化和湖仓一体数据平台的研究，将巨杉打造成新一代分布式多模联机数据分析平台。

数据库本身是一个十分复杂的基础软件平台，但如果换位思考，客户需要解决的问题就是两个：如何存放数据和如何访问使用数据，也就是通过一体化的产品提供优秀的数据库处理性能及易于使用的接口。巨杉数据库从客户角度出发，使用计算存储分离的架构来解决上述两个问题。

从存储角度，巨杉满足以下客户基本需求的同时，还能针对不同场景提供行存，列存和压缩能力，达到高效存储与访问：

首先，要高可靠，通常是由多副本来保证；

其次，要能独立的伸缩，保证无限的容量；

再者，要能够处理各种不同格式的数据，也即多模数据，满足业务多样化的需求；

最后，要能部署在不同的平台上，包括公有云、混合云、私有云和裸机数据中心。保证一定的独立性，数据能够自由的移动与出入。

从访问使用数据角度，也就是计算层面，SQL提供了统一标准的编程接口，事务一致性使得应用能够使用一致可靠的数据。这两者也是众多客户的基本要求。巨杉数据库提供多种数据库兼容引擎，包括：MySQL, MariaDB, PostgreSQL, MongoDB, Spark 以及 SequoiaDB 原生接口，极大地为客户提供熟悉的服务平台。同时，巨杉数据库提供跨引擎的事务一致性，为用户带来以下优势：

对所有的数据具有统一视野，方便统一管理；

避免数据在不同引擎中的移动或重复拷贝；

简化应用逻辑，专注业务层面；

可以在同一套数据上实时联机访问，或执行分析任务。

在平台的实现层面，巨杉湖仓一体平台引入了微服务构架，各内部组件和计算集群都能弹性按需伸缩，且实现高容灾；使用自有的元数据管理，并通过角色管理权限，满足各种共享需求；引入开放列存格式，方便数据自由出入；统一的缓存减低数据访问时延，减低访问成本；标准的数据接口，解除平台绑定，自由实现各类云平台和私有部署；微分区与元数据结合优化访问，针对分析场景优化的向量引擎让平台性能更上一个台阶。

针对以上需求，推荐大家与我们一同关注以下ACM SIGMOD 2021的最新论文：

SIGMOD Curated Session:Data Structures

1	Vector Quotient Filters: Overcoming the Time/Space Trade-Off in Filter Design
2	A-Tree: A Dynamic Data Structure to Efficiently Index Arbitrary Boolean Expressions
3	Adaptive Compression for Fast Scans on String Columns

SIGMOD Curated Session: Streams

1	EIRES: Efficient Integration of Remote Data in Event Stream Processing
2	To Share, or not to Share Online Event Trend Aggregation Over Bursty Event Streams

SIGMOD Curated Session: Distributed and Cloud

1	Compliant Geo-distributed Query Processing
2	Asynchronous Prefix Recoverability for Fast Distributed Stores
3	Citus: Distributed PostgreSQL for Data-Intensive Applications

4	Instance-Optimized Data Layouts for Cloud Analytics Workloads
5	PolarDB Serverless: A Cloud Native Database for Disaggregated Data Centers
6	Consistency and Completeness: Rethinking Distributed Stream Processing in Apache Kafka

7	Real-time Data Infrastructure at Uber
8	ArkDB: a Key-Value Engine for Scalable Cloud Storage Services
9	FoundationDB: A Distributed Unbundled Transactional KeyValue Store （SIGMOD工业界最佳论文）

10	KEA: Tuning an Exabyte-Scale Data Infrastructure

SIGMOD Curated Session: Data Curation and Integration

1	TENET: Joint Entity and Relation Linking with Coherence Relaxation
2	Joint Open Knowledge Base Canonicalization and Linking
3	Reducing Ambiguity in Json Schema Discovery

4	BullFrog: Online Schema Evolution via Lazy Evaluation
5	DataMingler: A Novel Approach to Data Virtualization

相关阅读

转载地址：http://wfhdi.baihongyu.com/

你可能感兴趣的文章