2022数字+大会 Arctic湖仓一体最佳实践 主讲人:王涛网易数帆实时数据湖平台负责人 01企业需要什么样的数据湖 2022数字+大会 目录 CONTENTS 02流式湖仓服务Arctic 03网易内部业务实践 2022数字+大会 企业需要什么样的数据湖 流批割裂现状 数据模型 数据质量 基于数据湖的开放架构 数据资产 面向数据 数据治理 2022数字+大会 flink实时计算 kv/dbdim kafka kudu/doris vs 点对点开发 面向过程 数据源 网易有数平台实践 数据源 清洗/打宽/聚合 Hive Hive Hive Hive 数据集市 Kudu HBASE flink 分钟/秒级 spark/impala flink spark/impala 清洗/打宽/聚合 小时/天级 spark spark Hive Hive 2022数字+大会 CDCLOG Hive Hive spark 传统lambda架构弊端 •数据孤岛(Kudu等) •独立采购和部署 应用层:流批合并视图 离线应用层实时应用层 •冗余存储浪费成本 •难以数据复用和互通 •研发体系割裂 •研发人效低 •研发规范不通用 •应用层视图合并复杂 •指标和语义二义性 sparkimpala 2022数字+大会 Hive spark Hive spark 数据源 impala Kudu KV 服务层(实时数仓) flink 消息队列 KV 存储层(消息队列+kv) flink flink 数据源 业务期望:流批一体 •研发过程统一 •研发规范统一 spark 应用层 flink Arctic Trino/impala •指标语义统一 •存储统一,消除孤岛 2022数字+大会 •降本,提效 spark Arctic flink sparkflink 数据源 2022数字+大会 流式湖仓服务Arctic Arctic是什么 2022数字+大会 •Arctic是由网易开源的流式湖仓服务,Arctic在Iceberg和Hive之上添加了更多实时场景的能力,并且面向DataOps提供流批统一,开箱即用的元数据服务,让数据湖更加好用和实用。 ArcticTablestore •Tablestore:存储单元 -CDC写入Changestore -存量数据存储在Basestore 2022数字+大会 -Change/base是独立表 -可选集成kafkalogstore •Tablestore优势 -CDC按顺序回放 -Change表可以开放访问 -屏蔽optimize产生的快照 与iceberg原生方案不同,提供了更加优化的,面向生产的streaming能力 •格式兼容:百分百兼容Iceberg/Hive的表格式和语法 •引擎平权:支持Spark和Flink读写数据,支持Trino/impala查询数据 streaming lakehouse service 2022数字+大会 Arctickeyfeatures •基于主键高效地流式更新 •数据自动分桶,结构自优化 •Spark/Trinomerge-on-read,查询分钟级新鲜度 •支持将数据湖和消息队列封装成统一的表,流批表合一 •提供流式数仓标准化的度量,dashboard和相关管理工具 •解决并发写入冲突,实现事务一致性语义 2022数字+大会 网易内部业务实践 流批一体的日志实时大屏与报表 •离线HIVE方案 •日志计算都是T+1 2022数字+大会 •不支持实时查询 •Arctic收益 •流批统一存储,实时数据可落地与追溯 •支持秒级延迟数据加工,实现实时大屏 •基于MOR的分钟级新鲜度的准实时报表 准实时场景平替Doris •使用Doris的不足 •不支持存储大String类型的字符串,需要人工参与解析数据 2022数字+大会 •需要独立部署,增加了部署与运维成本 •增加了分析师的学习成本 •Arctic收益 •稳定性提升 •降低分析师门槛,提升100%以上人效 推送效果指标统计 •历史方案 •准实时场景,分钟级延迟需求 •全链路Flink任务实现,资源占用大 2022数字+大会 •窗口计算导致任务不稳定,资源占用高 •Arctic收益 •释放实时集群20%的资源 •提升了应对突发流量的健状性 2022数字+大会 THANKS 2022数字+大会 THANKS 2022数字+大会 THANKS