您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[-]:移动云(陶捷):海山数仓:移动云云原生OLAP数据库的技术演进与实践 - 发现报告
当前位置:首页/行业研究/报告详情/

移动云(陶捷):海山数仓:移动云云原生OLAP数据库的技术演进与实践

信息技术2024-08-26陶捷-H***
移动云(陶捷):海山数仓:移动云云原生OLAP数据库的技术演进与实践

大数据技术 大数据技术标准推进委员会 大数据技术标准推进委员会 大数据技术标准推进委员会 大数据技术标准推进委员会 大数据技术标准推进委员会 海山数仓:移动云云原生OLAP数据库技术演进与实践 陶捷|中国移动云能力中心 大数据技术标准推进委员会 大数据技术标准推进委员会 自主·创新·引领 大数据技术 大数据技术标准推进委员会 大数据技术标准推进委员会 目录Contents 01 移动云分析型数据库发展历程 02 03 04 大数据技术标准推进委员会 大数据技术标准推进委员会 大数据技术标准推进委员会 大数据技术标准推进委员会 大数据技术标准推进委员会 海山数仓的架构和理念海山数仓的核心技术实践与展望 大数据技术标准推进委员会 大数据技术 大数据技术标准推进委员会 大数据技术标准推进委员会 大数据技术标准推进委员会 大数据技术标准推进委员会 大数据技术标准推进委员会 大数据技术标准推进委员会 Chapter01 移动云分析型数据库发展历程 大数据技术 移动云数据库的发展历程 大数据技术标准推进委员会 移动云数据库团队十年前正式诞生,以实现数据库核心技术自主可控为目标,目前已构建完整产品和市场体系,并实现大规模商用。 大数据技术标准推进委员会 2024 苏州研发中心 2014 云能力中心 2020 -云原生进阶,发布海山数据库2.0 -启动算力网络数据库探索和研究 -基于开源启动商业版产品打造 大数据技术标准推进委员会 -集团内部推广和应用 -启动云改,转型云计算服务商 大数据技术标准推进委员会 大数据技术标准推进委员会 -海山数据库1.0发布 研发团队 资源规模 市场推广 规模200+人 大数据技术标准推进委员会 内核研发70+人 15+31全国资源覆盖 大数据技术标准推进委员会 30万vcore 10+中移专业公司 9大重点行业突破 由云向算,云原生数据的四级进化 大数据技术标准推进委员会 我们认为数据库的下一阶段: 无资源预占、全球分布、任务式服务 L3Serverless 无资源预占、水平和垂直扩展 算 存 L2存算分离架构 资源预占、计算存储分别扩展 L1容器化部署 资源预占、计算存储—体扩展 大数据技术标准推进委员会 从云计算到算力网络 2018 2014 2009 AuroraServerless 大数据技术标准推进委员会 大数据技术标准推进委员会 Aurora 大数据技术标准推进委员会 LogisDatabase 大数据技术标准推进委员会 大数据技术标准推进委员会 开源托管 大数据技术 云原生数据库的进化方向:更深层次的解耦、更灵活的感知调度 大数据技术 移动云数据库的布局 大数据技术标准推进委员会 移动云一站式云原生数据库服务 分析检索OLAP 海山数据库数仓版 L2 搜索数据库 L1 向量数据库 L1 数据库生态工具 事务型 NoSQL L3 L2 海山数据库分布式版* L1 数据库统一云原生平台底座 L1 文档数据库 L1 缓存数据库 海山数据库PostgreSQL版 海山数据库MySQL版 L4 算力网络数据库* 数据库自治 数据库管理 数据库传输 大数据技术标准推进委员会 。移动云基于K8s构建云原生数据库底座,全线产品达云原生L1级 大数据技术标准推进委员会 大数据技术标准推进委员会 。自研海山数据库系列,采用存算分离架构,并全面向Serverless演进 大数据技术标准推进委员会 。在中国移动算力网络战略下,大力探索算力网络数据库,积极推进相关技术以及行业标准制定 大数据技术标准推进委员会 *海山数据库MySQL版和分布式版公测中,即将上线 *多模数据库正处于研发阶段 大数据技术标准推进委员会 *算力网络数据库正处于前期调研阶段 分析型数据库——从湖到仓 大数据技术: SQLonHadoop->数据湖->湖仓—体 分析型数据库技术的发展的四个阶段 2008年 Hadoop 2012年 Presto、Impala、 Hawq、Druid 2017年 Hudi 2018年 Iceberg 2019年 DeltaLake 湖仓融合 2020年 湖仓—体 第一代 单机分析型数据库 第二代 传统MPP数据库 第三代 新架构实时数仓 上世纪90年代以Oracle、DB2为代表的单机分析型 数据库 2000年代以Teradata、Greenplum、Vertica为代 表的MPP架构数仓,具备支撑TB级别数据分析能力 近十年来以Clickhouse、Doris为代表的新架构实时数仓,吸收开源大数研技术架构和能力,在分析实时 性、支撑数据规模上有了显著提升 BC-Hadoop 移动云产品演进: HugeTable 海山数仓 BC-RDB-Hybrid LakeHouse 第四代 云原生数仓 近五年来以SnowFlake为代表的云原生数仓,强调与云的基础设施融合,云原生、 —体化、湖仓融合是主要的发展趋势 大数据技术标准推进委员会 大数据技术标准推进委员会 大数据技术 大数据技术标准推进委员会 大数据技术标准推进委员会 大数据技术标准推进委员会 大数据技术标准推进委员会 大数据技术标准推进委员会 Oracle DB2 Netezza 2000年 2003年 2005年 2016年 2017年 2021年 2014年 2021年 FoxLake Teradata Greenplum Vertica ClickHouse ApacheDoris Starrocks、Databricks SnowFlake DataBend 大数据技术标准推进委员会 大数据技术 大数据技术标准推进委员会 大数据技术标准推进委员会 大数据技术标准推进委员会 大数据技术标准推进委员会 大数据技术标准推进委员会 大数据技术标准推进委员会 Chapter02 海山数仓的架构和理念 海山数仓的设计理念 大数据技术标准推进委员会 大数据技术 大数据技术标准推进委员会 大数据技术标准推进委员会 高性能 大数据技术标准推进委员会 实时数仓引擎 物化视图、向量化引擎、行列混存、CBO优化器 大数据技术标准推进委员会 极简化 极致性价比 云原生提供极致性价比 存算分离、Multi-Warehouse 数据集成生态 大数据技术标准推进委员会 大数据技术标准推进委员会 Zero-ETL、湖仓融合 海山数仓的架构设计 接入 层 JDBC ODBC MySQLClient 大数据技术 大数据技术标准推进委员会 。高性能数仓引擎 数仓实例 服务 层 计算 层 本地高速缓存 本地高速缓存 CN CN FE FE FE 大数据技术标准推进委员会 FE负责元数据的管理、存储和查询的解析;CN主要负责数据的存储和查询计划的执行。支持向量化引擎、CBO优化、物化视图、智能缓存等能力。 。存算分离架构 大数据技术标准推进委员会 计算存储独立的扩展,支持无状态计算节点,持久化存储基于对象存储,通过本地缓存加速;实现多个计算实例共享数据存储,降低存储冗余和同步开销。 大数据技术标准推进委员会 。统一管控云平台 海山云 平台 监控管理 日志管理 运维平台 传输迁移 数据面 管控API K8s管理 容器网络 多云管理 管控面 大数据技术标准推进委员会 对各类数据库进行统—抽象和封装,形成算网数据库管控底座;提供适配算力网络模式的新型数据库资源供给能力。 。高兼容性 计 算 存 储 对象存储 大数据技术标准推进委员会 大数据技术标准推进委员会 支持MySQL协议,兼容SQL99/2003,支持多种外部数据源、联邦查询能力,兼容Iceberg、Hudi等开放数据湖格式。 海山数仓的应用场景 大数据技术 典型场景 实时分析 业务报表 精准营销 提供统—的在线查询和离线计算的能力,简化数据架构,降低开发和运维成本。通过弹性伸缩支持更合理的资源配比,减少非高峰期的保有资源,优化成本,提高性价比 大数据技术标准推进委员会 大数据技术标准推进委员会 支持海量数据实时入库和计算,毫秒或秒级返回结果,方便自由灵活的快速构建报表 大数据技术标准推进委员会 通过实时的数据统计,监测不同渠道用户的增长、活跃、留存状况,让企业快速分析出投资回报率。提高营销效果数据时效性,便于改进产品体验和优化营销方案,提高整体收益 自助分析 大数据技术标准推进委员会 自助式BI系统 数据探查 实时分析 大数据技术标准推进委员会 监控、审计风控系统 典型场景 大数据技术标准推进委员会 海山数仓 在复杂查询、高并发、实时分析等OLAP场景下,提升分析效率,实现数据价值最大化 大数据技术标准推进委员会 数据服务 面向客户的报表末端经营分析 固定报表 管理驾驶舱数据大屏 大数据技术标准推进委员会 大数据技术 大数据技术标准推进委员会 大数据技术标准推进委员会 大数据技术标准推进委员会 大数据技术标准推进委员会 大数据技术标准推进委员会 大数据技术标准推进委员会 Chapter03 海山数仓的关键技术 云原生架构 大数据技术标准推进委员会 大数据技术标准推进委员会 存算一体和存算分离的支持Multi-Warehouse支持 。 大数据技术标准推进委员会 大数据技术 大数据技术标准推进委员会 大数据技术标准推进委员会 公有云场景支持存算分离架构具备更好资源弹性;私有云场景支持存算—体架构,具备更健壮架构; 。 。 大数据技术标准推进委员会 持久化存储基于对象存储,降低约80%存储成本,容量可弹性扩展至PB级;本地SSD提供缓存加速能力,大部分缓存命中查询性能与存算—体持平; 大数据技术标准推进委员会 计算/存储资源独立的扩展,有效提升资源利用率。 。多个Warehouse共享—份数据,避免集群间数据复制成本; 。 不同Warehouse应用在不同的业务负载。计算资源可以进行物理隔离; 。 具备完备的多租户权限控制(RoleBasedAccessControl)。 ADhoc自助分析 OLAP分析 固定报表 大数据技术 新型物化视图加速 基于外表物化视图 。加速湖仓融合场景查询,支持Hive、Hudi、Iceberg、Paimon等数据湖; 大数据技术标准推进委员会 。支持自动感知数据湖对应分区数据变化,实现增量更新。 支持查询透明改写 。在不修改查询语句,自动将在基表上的查询改写为在物化视图上的查询,通过物化视图的预计算结果大幅加速查询; 。 大数据技术标准推进委员会 基于文本/基于视图等优化方法,提升复杂的嵌套视图场景透明改写匹配能力 大数据技术标准推进委员会 物化视图任务管理 。 。 任务资源隔离:支持指定独立资源组,避免影响其他常规读写任务丰富的监控指标:实时监控物化视图的任务调度性能 大数据技术标准推进委员会 自动推荐物化视图 。 大数据技术标准推进委员会 基于规则和基于成本的算法,对于物化视图进行辅助设计 物化视图查询加速 大数据技术标准推进委员会 物化视图分层建模 外表 物化视图 ADS DWS DWD 大数据技术标准推进委员会 ODS(Hive/Hudi/Iceberg/Deltalake) 大数据技术 主键模型加速实时场景 大数据技术标准推进委员会 主键模型 。 大数据技术标准推进委员会 提供—种新型的数据模型,能够更高效的支撑数据频繁更新和 实时查询场景。 大数据技术标准推进委员会 技术原理 。 大数据技术标准推进委员会 对于默认的Merge-On-Read模式,采用Delete-and-Insert数据更新方式。在数据写入时,该模型先把更新数据的旧版本记录标记为删除,然后把更新数据作为新记录写入新文件; 。 大数据技术标准推进委员会 查询时,避免了数据多版本合并操作,进而能将谓词下推到存储层,大幅提升了分析性能。 提升效果 相比Merge-On-Read模式,在动态数据流下查询性