本文共 2805 字,大约阅读时间需要 9 分钟。
湖仓一体需要计算存储分离的架构,以解决数据容量及数据计算灵活扩展的业务要求,同时云化和数据平台化的能力可以有效提升整体管理效率。SIGMOD2021中有多个非常值得关注的技术架构课题,期待与大家一起进行前沿的学术探索及交流。
21世纪是数据爆炸的时代,无论是数据的总量和类型,还是数据处理的实时性,均对原有数据库带来了极大的冲击。这对数据库开发人员来说既是福音,更是挑战。福音在于体现了个人的价值,饭碗不愁;挑战在于要扩展已有知识,更新技术,解决新的问题。
我有幸在数据库行业摸爬滚打了近20年:从事过大型计算机的数据库管理员;在IBM DB2做了十余年内核架构设计师,参与开发过OLTP, MPP(share nothing 数仓), pureScale(share everything 集群), Blue (for analytic) 等不同类型数据库的研发;曾担任华为数据库专家组成员,领导团队从事数据平台软硬件一体研发。2018年组建了巨杉北美实验室,把学术前沿和业界领先的技术引入巨杉,聚焦数据库服务云化和湖仓一体数据平台的研究,将巨杉打造成新一代分布式多模联机数据分析平台。
数据库本身是一个十分复杂的基础软件平台,但如果换位思考,客户需要解决的问题就是两个:如何存放数据和如何访问使用数据,也就是通过一体化的产品提供优秀的数据库处理性能及易于使用的接口。巨杉数据库从客户角度出发,使用计算存储分离的架构来解决上述两个问题。
从存储角度,巨杉满足以下客户基本需求的同时,还能针对不同场景提供行存,列存和压缩能力,达到高效存储与访问:
从访问使用数据角度,也就是计算层面,SQL提供了统一标准的编程接口,事务一致性使得应用能够使用一致可靠的数据。这两者也是众多客户的基本要求。巨杉数据库提供多种数据库兼容引擎,包括:MySQL, MariaDB, PostgreSQL, MongoDB, Spark 以及 SequoiaDB 原生接口,极大地为客户提供熟悉的服务平台。同时,巨杉数据库提供跨引擎的事务一致性,为用户带来以下优势:
在平台的实现层面,巨杉湖仓一体平台引入了微服务构架,各内部组件和计算集群都能弹性按需伸缩,且实现高容灾;使用自有的元数据管理,并通过角色管理权限,满足各种共享需求;引入开放列存格式,方便数据自由出入;统一的缓存减低数据访问时延,减低访问成本;标准的数据接口,解除平台绑定,自由实现各类云平台和私有部署;微分区与元数据结合优化访问,针对分析场景优化的向量引擎让平台性能更上一个台阶。
针对以上需求,推荐大家与我们一同关注以下ACM SIGMOD 2021的最新论文:
SIGMOD Curated Session:Data Structures
1 | Vector Quotient Filters: Overcoming the Time/Space Trade-Off in Filter Design |
2 | A-Tree: A Dynamic Data Structure to Efficiently Index Arbitrary Boolean Expressions |
3 | Adaptive Compression for Fast Scans on String Columns |
SIGMOD Curated Session: Streams
1 | EIRES: Efficient Integration of Remote Data in Event Stream Processing |
2 | To Share, or not to Share Online Event Trend Aggregation Over Bursty Event Streams |
SIGMOD Curated Session: Distributed and Cloud
1 | Compliant Geo-distributed Query Processing |
2 | Asynchronous Prefix Recoverability for Fast Distributed Stores |
3 | Citus: Distributed PostgreSQL for Data-Intensive Applications |
4 | Instance-Optimized Data Layouts for Cloud Analytics Workloads |
5 | PolarDB Serverless: A Cloud Native Database for Disaggregated Data Centers |
6 | Consistency and Completeness: Rethinking Distributed Stream Processing in Apache Kafka |
7 | Real-time Data Infrastructure at Uber |
8 | ArkDB: a Key-Value Engine for Scalable Cloud Storage Services |
9 | FoundationDB: A Distributed Unbundled Transactional KeyValue Store (SIGMOD工业界最佳论文) |
10 | KEA: Tuning an Exabyte-Scale Data Infrastructure |
SIGMOD Curated Session: Data Curation and Integration
1 | TENET: Joint Entity and Relation Linking with Coherence Relaxation |
2 | Joint Open Knowledge Base Canonicalization and Linking |
3 | Reducing Ambiguity in Json Schema Discovery |
4 | BullFrog: Online Schema Evolution via Lazy Evaluation |
5 | DataMingler: A Novel Approach to Data Virtualization |
相关阅读
转载地址:http://wfhdi.baihongyu.com/