大数据 大数据技术标准推进委员会 大数据技术标准推进委员会 大数据技术标准推进委员会 新一代云原生分析型数据库架构设计和应用创新 大数据技术标准推进委员会 大数据技术标准推进委员会 王小玉|中国移动信息技术中心 据技术标准推进委员会 大数据技术标准推进委员会 自主·创新·引领 大数据 大数据技术标准推进委员会 大数据技术标准推进委员会 目录Contents 大数据技术标准推进委员会 01产品架构 大数据技术标准推进委员会 02关键技术 大数据技术标准推进委员会 据技术标准推进委员会 大数据技术标准推进委员会 03场景案例 大数据技术标准推进委员会 大数据 据技术标准推进委员会 大数据技术标准推进委员会 大数据技术标准推进委员会 Chapter01 大数据技术标准推进委员会 大数据技术标准推进委员会 大数据技术标准推进委员会 第一部分产品架构 全覆盖 全方位 全时空 大数据 9.9亿+移动客户 通信 支出 10亿+物联网卡 社交 上网 2.98亿+家庭宽带客户 位置 时序 2430万+政企客户 身份 终端 中国移动大数据资源禀赋 大数据技术标准推进委员会 5.5PB日采集量 22万+每日作业数 650+PB累计高价值数据存储 8.4万+大数据节点 大数据技术标准推进委员会 中国移动大数据平台演进 大数据技术标准推进委员会 解决数据跨云协同、跨云管理问题 解决成本、扩展性问题 解决数据孤岛、数据搬迁问题 大数据技术标准推进委员会 挖掘建模数据探索BI/报表 大数据技术标准推进委员会 挖掘建模AI 数据探索 ETL BI/报表数据仓库 挖掘建模数据探索BI/报表AI NFS|SMB|S3|HDFS|STREAMS 云化应用传统应用 敏态业务稳态业务 AI NFS|SMB|S3|HDFS|STREAMS S3|HDFSS3|HDFS 多协议融合 开放数据格式 数据智能分级 分布式存储 分布式存储 HDFS|对象|文件|块 OceanStorPacific 大数据技术标准推进委员会 数据湖存储 结构化/半构化结构化 结构化/半结构化/非结构化 结构化/半结构化/非结构化 中国移动大数据发展历程 数据共享 数据访问加速 统一元数据 HDFS|对象|文件|块 统一存储底座 授权|隐私 挖掘建模数据探索 BI/报表 AI ETL 数据仓库 结构化/非结构化 结构化 据技术标准推进委员会 湖仓并存,存算一体 湖仓并存,存算分离 统一存储,湖仓融合 云原生数据湖底座,一湖多云 梧桐云原生分析型数据库 梧桐云原生分析型数据库是中国移动信息技术中心基于Greenplum自主研发的分布式分析型数据库产品。具备云原生、高并发、高性能、多模检索等特性,可帮助企业用户快速构建支撑全域数据管理,实现全视角数据分析的云原生数据仓库。 大数据 大数据生态 PG /GP 生态 接口层 information_shema PL/Java PL/Python PL/SQL SQL 客户端辅助工具 psql libpg ODBC JDBC 场景 数据立方体 数据科学 数据共享 多模检索 湖仓融合 实时数仓 传统数仓 UDF 高时延高并发 大数据技术标准推进委员会 大数据技术标准推进委员会 大数据技术标准推进委员会 元数据服务扩展性接口 分布式事务 UDT 系统表管理 UDO 计算层 bypass路径 图检索 向量检索 空间计算 全文检索 算子混编 物化视图 ste执行器 向量执行器 火山执行器 SPI FDW 开放访问 在线DDL 主键索引 HTAP存储 HDFS外表 定制化hudiorc HMS接口 规则系统 UDAF Hive对接 大数据技术标准推进委员会 大数据技术标准推进委员会 大数据技术标准推进委员会 存储层 hudirest接口 UDI icebergrest接口 原生hudiorc 桶索引 聚合模型 iceberg BGW 华为云 阿里云 移动云 腾讯云 海光 飞腾 鲲鹏 X86 据技术标准推进委员会 基础设施 负载均衡 大数据技术标准推进委员会 大数据技术标准推进委员会 大数据技术标准推进委员会 云原生云中立 访问接入层 Master Master Master 架构领先性能卓越 VCVCVC 数据计算层 数据格式(Row、Parquet、Text、CSV、ORC) 国产芯片/服务器 IaaS IaaS 大数据技术标准推进委员会 大数据技术标准推进委员会 自主研发安全可控 数据存储层 技术架构 梧桐云原生分析型数据库采用采用存算分离架构,实现了存算分离、服务和计算节点无状态的弹性扩展、多个异构存储同时接入、跨存储联合查询;在性能方面,通过内核优化实现了向量化执行引擎、C++原生HDFS接入、数据缓存、算子下推等技术;在生态方面,可以支持多种云基础设施,并支持云化、虚拟机、物理机等多种部署方式,成功适配多款国产服务器及操作系统。 国产操作系统 对象存储 自研分布式存储 大数据 据技术标准推进委员会 大数据技术标准推进委员会 生态开放兼容性强 基础设施层 大数据技术标准推进委员会 大数据 据技术标准推进委员会 大数据技术标准推进委员会 大数据技术标准推进委员会 Chapter02 大数据技术标准推进委员会 大数据技术标准推进委员会 大数据技术标准推进委员会 第二部分关键技术 全栈云原生设计 梧桐云原生分析型数据库服务、计算和存储均可按需弹性扩展,完全的云原生设计,支持多种云基础设施和容器化、虚拟机、物理机等多种部署方式。 大数据 负载均衡 元数据 Catalog存储 服务层 MainNode 主节点 资源管理 解析器 分析器 优化器 容错服务 事务管理 权限安全 调度器 主节点 主节点 主节点 计算集群 计算集群 计算层 VirtualComputeCluster(VC) VC实例 VC实例 VC实例 VC实例 计算节点 计算节点 计算节点 计算节点 计算节点 计算节点 计算节点 计算节点 计算节点 计算节点 计算节点 计算节点 存储层 VirtualStorageCluster(VSC) 数据 HDFSVSC 数据 自研HTAP存储VSC 数据 HiveVSC 数据 S3VSC 基础设施层 IaaS 物理机 虚拟机 容器 公有云 私有云 大数据技术标准推进委员会 大数据技术标准推进委员会 多Master架构 大数据技术标准推进委员会 (云原生架构) 大数据技术标准推进委员会 多计算集群架构 大数据技术标准推进委员会 (云原生&高性能计算) 多存储集群架构 大数据技术标准推进委员会 (湖仓一体) 据技术标准推进委员会 多场景灵活部署 (多云部署) 多模数据库全域数据分析 梧桐云原生分析型数据库依托PostgreSQL开源生态实现多模分析检索,提供全域数据管理和全场景数据分析能力。 SQL PL/SQL Python Java 统计分析 全文检索 空间计算 WuTongDB 图检索 向量检索 机器学习 深度学习 人工智能 。。。 数据分析 数据集成 大数据技术标准推进委员会 大数据技术标准推进委员会 大数据 据技术标准推进委员会 大数据技术标准推进委员会 大数据技术标准推进委员会 大数据技术标准推进委员会 大数据技术标准推进委员会 数据探索 数据科学 大数据技术标准推进委员会 大数据技术标准推进委员会 向量化执行引擎 •基于AVX-256SIMD指令集优化,单指令多数据流 •动态流水线处理架构,消除IO等待导致的CPU空置 弹性并行化调度引擎 大数据技术标准推进委员会 •根据资源负载实时调整并行度,与数据分布、模式定义解耦 •单query时,动态提升并行度,利用所有资源 优化器不再参考数据部分和模式定义来直接决定并行 度,而是由资源管理模块在执行节点上动态调整并行度。 大数据技术标准推进委员会 大数据技术标准推进委员会 •多query时,动态降低并行度,提供并发量 高性能高并发计算 梧桐云原生分析型数据库的执行器基于SIMD(单指令多数据流)指令集进行向量化重构,大幅提升并行计算性能,同时具备弹性本地并行调度,可优化资源使用,合理进行SQL任务调度。性能比传统数据仓库快5-10倍,比传统SQLonHadoop引擎快几十倍: 大数据 据技术标准推进委员会 大数据技术标准推进委员会 大数据技术标准推进委员会 大数据 据技术标准推进委员会 大数据技术标准推进委员会 大数据技术标准推进委员会 Chapter03 大数据技术标准推进委员会 大数据技术标准推进委员会 大数据技术标准推进委员会 第三部分场景案例 考 租 应 核 户 用 支 支 支 撑 撑 撑 加工处理大数据平台 STG接口层 ODS贴源层 DWI明细层 DWV视图层 任务调度 onspark/mr hdfs DWA应用层 大数据技术标准推进委员会 大数据技术标准推进委员会 数仓分层 存储层 计算层 工具层 湖仓一体融合分析 改造后 DWA应用层 湖仓一体 存算分离 数仓分层 去冗余 存储层 统一存储 计算层 工具层 按需配置引擎统一调度 数据仓库 梧桐数据库 数据湖 hdfs STG接口层 ODS贴源层 DWI明细层 DWV视图层 自助分析工具 任务调度 应用数据库 改造前 DWA应用层 自助分析数据仓库 DWV视图层 DWI明细层 传统MPP存算一体 基于梧桐数据库的湖仓一体能力,实现数据仓库与数据湖的数据和模型互通,提升数据共享效率,解决数据孤岛问题,构建企 业级湖仓融合分析大数据平台。 大数据技术标准推进委员会 大数据 据技术标准推进委员会 大数据技术标准推进委员会 大数据技术标准推进委员会 大数据技术标准推进委员会 严重冗余存储分离引擎能力不足各自为战 基于公有云按需付费 梧桐云原生分析型数据库支持主流公有云基础设施,并提供简单易用的云管理平台。云管理平台可以根据实时的业务负载,对 计算资源进行自动的扩缩容,最大化节约客户的投资。 将公有云的云主机,根据不同的CPU/内存等配置,封装成云上不同的计算资源的型号。如:small,medium,large等,对应的是云平台上“某2核8GB内存配备云主机的2个节点”,“某8核32GB内存配备的云主机4个节点“,“某32核128GB内存配备的云主机8个节点“。每一种配备的资源型号都有 具体的标价,以OCU计价。 大数据技术标准推进委员会 大数据技术标准推进委员会 大数据 据技术标准推进委员会 大数据技术标准推进委员会 大数据技术标准推进委员会 大数据技术标准推进委员会 大数据技术标准推进委员会 梧桐数据库支持多虚拟计算集群架构,可实现租户间的计算资源的完全隔离。虚拟计算集群的实例(VCI)可在云上根据负载情况弹性扩缩容。 算力弹性伸缩,可以解决大数据平台算力不足问题(分流算力波峰),按需动态调整算力,提高资源利用率。 大数据技术标准推进委员会 大数据技术标准推进委员会 数据计算层 SQL请求 Master 大数据技术标准推进委员会 实时数仓VC 明细查询VC 离线数仓VC 数据集市VC 即席查询VC 数据开发VC VCI-1 VCI-1 VCI-1 VCI-1 VCI-1 VCI-1 VCI-2 VCI-2 VCI-2 VCI-2 VCI-2 VCI-2 VCI-3 VCI-3 VCI-3 VCI-3 VCI-3 VCI-3 VCI-4 VCI-4 VCI-3 VCI-3 VCI-3 VCI-3 VCI-5 VCI-5 … … … …VCI-3 … … VCI-n VCI-n VCI-n VCI-n VCI-3 VCI-3 VCI-3 VCI-6VCI-6 大数据技术标准推进委员会 VCI-n VCI-n SegmentSegmentSegmentSegment SegmentSegmentSegmentSegmen