网易数字+ 网易数字+大 网易数 网易数字+大会 网易数字+大会 2021网易数字+大会 网易数字+大会 网易数字+大会 网易数字+大会 网易湖仓一体的机遇与挑战 +大会 网易数字+大会 数字+大会 网易数字+大会 字+大会 马进 网易数帆 网易数字+大 大会 目录 网易数字 01 + 网易数字+大会 流批一体 020304 大会 大会 网易数字 湖仓一体场景与实践未来规划 + 网易数 数字+大会 字 网易数字+大会 流批一体 + 网易数字 网易数字+大会 +大会 网易数字+大 大会 网易数字 网易数字+大会 网易数字+大会 数字+大会 网易数 网易数字+大会 字 网易数字+大 离线数仓体系 数据模型 数据传输 +大会 spark/hive 数据服务 spark/sqoop 网易数字+ 离线传输 按天调度驱动 +大会 数据血缘 数据资产 数据质量 hive 网易数字+大会 离线表 数据开发 impala/sparksql AP系统 数据分析 APP + + 网易数 spark/hive 网易数字+ 有数 任务运维 数字+大会 字 网易数字+大会 网易数字+大 业界实时数仓体系 大会 离线传输 离线表 AP系统 APP 网易数字+ 网易数字 按天调度驱动 flink 实时开发 kafka + 实时传输 kafka 实时/流表 flink impala+kududruid/dories/clickhouse redis/mysql/oracle 大会 AP系统 APP 事件驱动 实时血缘实时任务 网易数字+大会 网易数字 监控运维 + 网易数 数字+大会 字 网易数字+大会 网易数字+大 存在的问题 数据质量 数据资产 数据模型 主题域/数据分层 +大会 数据治理 VS需求 网易数字+大会 点对点开发 需求需求 + 实时开发 实时开发 实时开发 + 网易数 数据源 网易数字+ 数字+大会 网易数字 传感器日志数据库 字 网易数字+大会 网易数字+大 存在的问题 网易数字 大会 网易数字 链路重复建设离线处理链路无法复用,开发体系割裂,01 大会 离线实时两套代码 网易数字+大会 +大会 数据不统一 网易数字+ 数据孤岛 数据冗余浪费成本,数据规范难以统一,02 指标口径难以统一,无法统一治理 实时数仓没有基于数据湖,需要独立资源 部署,数据往往有进无出,每个业务需要03 从源头追溯数据 能效规范成本 大会 归根结底,是实时数仓没有 网易数字+大会 流批一体,没有全面中台化 + 网易数 数字+大会 字 网易数字+大会 网易数字+大 网易数字+大会 目标:实时数据中台 数据模型 数据资产 数据质量 网易数字 spark/hive/flink 数据服务 网易数字+ 离线传输 实时传输 + 网易数字+大会 周期+事件驱动 网易数字+大会 数据血缘 流批一体表 数据开发 spark/flink 任务运维 impala/sparksql 大会 网易数字 AP系统 +大会 数据分析 有数 APP + 网易数 数字+大会 字 网易数字+大会 + +大会 网易数字+大 网易数字 网易数 流批一体目标拆解 统一schema统一存储引擎统一存储介质消除二义性 使用一套代码 覆盖实时和离线场景 统一UDF 统一开发规范 数据模型数据资产数据质量数据血缘数据传输 网易数字 + 网易数字+大会 大会 + 存储流批一体开发流批一体应用流批一体 网易数字+ 数字+大会 字 网易数字+大会 湖仓一体 + 网易数字 网易数字+大会 +大会 网易数字+大 大会 网易数字 网易数字+大会 网易数字+大会 数字+大会 网易数 网易数字+大会 字 网易数字+大 存储流批一体 网易数字 数据模型 spark/hive/flink 数据服务 网易数字+ 离线传输 数据资产 数据质量 网易数字+大会 大会 网易数字+大会 impala/sparksql 实时传输 + 周期+事件驱动 网易数字 网易数字+大会 数据血缘 流批一体表 数据开发 任务运维 AP系统 +大会 数据分析有数 APP + 网易数 数字+大会 字 网易数字+大会 网易数字+大 存储流批一体 网易数字+大会 大会 大会 批查询增量查询 + 实时写入 增量写入 + 批量写入 流批一体表 实时订阅 + 增量消费 批量计算 数据快照管理 批量写入和替换 流批文件治理 流式写入和更新 流批统一schema + 网易数字 网易数 在线修改表结构 增量数据抽取 ACID保障 实时数据分发 大会 网易数字 网易数字+大会 OnlineDDLOfflineDDL 数字+大会 字 网易数字+大会 大会 存储流批一体 批查询 网易数字+大 流批一体选型 增量查询 实时写入 增量写入 + 批量写入 商业数仓 开源数仓 网易数字+ 数据湖 •生态封闭 网易数字+大会 •数据孤岛 •价格高昂 网易数字+大会 •生态半开放 网易数字 •数据孤岛 •无法实时订阅 •无法增量消费 + •生态全开放 •存算分离架构 •无法实时订阅 •无法流式更新 实时订阅 增量消费 批量计算 + 数字+大会 网易数 字 OnlineDDL OfflineDDL 网易数字+大会 大会 存储流批一体 批查询 网易数字+大 流批一体选型 增量查询 实时写入 增量写入 + 批量写入 商业数仓 开源数仓 网易数字+大会 数据湖 •生态封闭 网易数字+大会 •数据孤岛 •价格高昂 网易数字+大会 •生态半开放 网易数字 •数据孤岛 •无法实时订阅 •无法增量消费 + •生态全开放 •存算分离架构 •无法实时订阅 •无法流式更新 实时订阅 增量消费 批量计算 + 数字+大会 网易数 字 OnlineDDL OfflineDDL 网易数字+大会 网易数字+大 存储流批一体 网易数字+大会 大会 批查询增量查询 + 实时写入 增量写入 + 网易数字+大会 网易数字 批量写入 ACID 文件治理 OnlineDDL 湖仓一体 实时分发 增量读 批量读 数据purge OfflineDDL 实时订阅 + 增量消费 批量计算 + 网易数字 网易数 流式写入更新 快照管理 数字+大会 字 网易数字+大会 + 网易数字+大 网易数 小结 网易数字+大会 大会 网易数字 存储流批一体=湖仓一体=基于数据湖实现所有数仓功能 大会 网易数字 大会 支持流式更新,基于主键更新实时/准实时更新数据 网易数字+ 支持实时,增量,批量三种数据读方式,且支持数据分钟级延迟 + 网易数字+大会 数字+大会 网易数字+ 字 ACID保障,支持三种方式的并发写入,保障数据一致性快照和版本管理,支持版本回溯和回退 网易数字+大会 网易数字+大会 网易数 字 网易数字+ 网易数字+大 Arctic +大会 网易数字+大会 实时数据湖Arctic 大会 网易数字 + 网易数字+大会 网易数字+大会 数字+大会 网易数字+大会 网易数字+大会 Arctic为广褒的北极洲,寓意既有连绵的冰山,也有川流不息的北冰洋,冰山是一个一个数据文件,构成了批表的冰原,水为计算,将数据连接在一起,打通实时数据和离线数据的壁垒,形成流批一体的实时数仓,北极洲也需要治理,需要在平台侧构建流批一体的上层建筑 网易数字+大 Arctic数据流图 datasourceArcticODS ArcticDWDArcticDWS keyindex keyindex keyindex Changedata Changedata Changedata 网易数字 +大会 大会 传感器 Basedata Basedata Basedata 网易数字 网易数字 网易数字+大会 日志 Changedata keyindex + 数据库 Arctic维表 keyindex 网易数字+大会 KV存储 Basedata changedata 大会 网易数字 OLAPmergeonread + 网易数 basedata 数字+大会 大会 字 网易数字+大会 网易数字+大 流批一体+湖仓一体架构 统一元数据中心 + 网易数字 网易数字+大会 + 大会 数字+大会 网易数 字 use use 流批一体数据湖 stream stream stream stream stream stream batch stream stream batch batch batch 流批一体产品栈 数据血缘 数据模型 数据资产 数据质量 数据传输 数据开发 流批一体治理服务 网易数字+大会 网易数字+大会 use unifiedtable 网易数字+大会 网易数字+大会 stream/batch register unifiedingestion Database stream/batch 网易数字+大会 方案与实践 + 网易数字 网易数字+大会 +大会 网易数字+大 大会 网易数字 网易数字+大会 网易数字+大会 数字+大会 网易数 网易数字+大会 字 网易数字+大会 网易数字+大 基于实时湖仓的Kappa架构 统一查询保 网易数字+大会 证一致性 统一查询引擎(impala/presto/sparksql) 网易数字+大会 大会 数据仓库 Arctic实时数据湖(流批一体,湖仓一体) +大会 数据加工 网易数字+大会 EasyCDC +大会 kafka 数据回补 网易数字 网易数字+ Flink流批一体批计算 数字+大会 数据源 实时同步数据 数据库/日志 数据回补 + 网易数 大会 字 网易数字+大会 + +大会 + 网易数字+大 网易数字+大会 +大会 网易数 网易数字+大会 大会 流批统一Schema 网易数字 数字+ 字+ 网易数字+大会 + +大会 大会 + 网易数字+大 大会 大会 网易数 实时开发 网易数字+大 网易数字 数字+ 网易数字 字+大会 会 + 网易数字+大会 +大会 + 网易数字+大 + 网易数字+ 网易数字+大会 网易数 网易数字+大会 批查询 数字+ 网易数字+大会 字 网易数字+大会 + 网易数字+大 网易数 性能数据 大会 Query:selectmax(k),avg(k),count(distinctk)fromsbtestwheredt='2021-05-31'; •测试场景 +大会 •100GB批数据 网易数字+大会 •20GB增量数据 •16个并发 + •结论 网易数字+ •查询性能普遍优于Hudi 数字+大会 字 网易数字+大会 未来规划 + 网易数字 网易数字+大会 +大会 网易数字+大 大会 网易数字 网易数字+大会 网易数字+大会 数字+大会 网易数 网易数字+大会 字 + 网易数字+大 网易数 RoadMap–实时数据中台架构演进 Arctic流批一体数据湖 流文件 流文件 批文件 流文件 流文件 批文件 流文件 流文件 批文件 批文件 批文件