网易数帆数字化基础软件自主创新分享周 从Snowflake和Deltalake看湖仓一体自主创新 主讲人:马进|网易数帆 CONTENT 2 湖仓一体核心技术解析 3 网易数帆湖仓一体创新之路 4 总结与规划 1 数据湖技术前生今世 网易数帆数字化基础软件自主创新分享周 数字化基础软件自主创新分享周 网易数帆数字化基础软件自主创新分享周 数据湖技术前生今世 数字化基础软件自主创新分享周 演示者 2022-06-2701:19:21 -------------------------------------------- 数据湖这个概念是 网易数帆数字化基础软件自主创新分享周 JamesDixon,thenchieftechnologyofficeratPentaho,coinedthetermby2011 Adatalakeisasystemorrepositoryofdatastoredinitsnatural/rawformat,usuallyobjectblobsorfiles.Adatalakeisusuallyasinglestoreofdataincludingrawcopiesofsourcesystemdata,sensordata,socialdataetc.,andtransformeddatausedfortaskssuchasreporting,visualization,advancedanalyticsandmachinelearning 网易数帆数字化基础软件自主创新分享周 Morepeopleaccessdata 网易数帆数字化基础软件自主创新分享周 网易数帆数字化基础软件自主创新分享周 网易数帆数字化基础软件自主创新分享周 DataWarehouse •Nosupportforvideo,audio,text •Nosupportfordatascience,ML •Limitedsupportforstreaming •Closed&proprietaryformats DataLake •PoorBIsupport •Complextosetup •Poorperformance •Unreliabledataswamps Deltalake 网易数帆数字化基础软件自主创新分享周 Lakehouse:datalake+warehouse 网易数帆数字化基础软件自主创新分享周 标签:高性能,SAAS,Cloudoriented $38Billion 网易数帆数字化基础软件自主创新分享周 (estimate) $37.9Billion Highest:100B 网易数帆数字化基础软件自主创新分享周 Lakehouse处于技术跃迁期 2021hypecyclefordatamanagement 网易数帆数字化基础软件自主创新分享周 小结:什么是数据湖 小结:什么是lakehouse 网易数帆数字化基础软件自主创新分享周 Lakehouse 网易数帆数字化基础软件自主创新分享周 小结:Snowflake、Databricks引领湖仓一体标准 Gartner2021数据库领导力象限 网易数帆数字化基础软件自主创新分享周 湖仓一体核心技术解析 数字化基础软件自主创新分享周 •Aimedforstructureddata •Operationtransactional •SQLextensions ACID 网易数帆数字化基础软件自主创新分享周 MVCC Update/deleteMergeinto Timetravel rollback •Incremental/streamprocessing •Maptabletostaticdirectories •Onewrite,NoACIDguarantees •Oneoperation,onesnapshot •Multiplewrite,Optimisticconcurrencecontrol •incrementalprocessingsnapshots 网易数帆数字化基础软件自主创新分享周 •Datafiles •Logfiles 网易数帆数字化基础软件自主创新分享周 producesnapshots •Checkpoints aka.compactions 网易数帆数字化基础软件自主创新分享周 SchemaevolutionSQLextensions:MERGEINTO 网易数帆数字化基础软件自主创新分享周 buildingTransactionallayerondatalake rollback incrementalprocess 网易数帆数字化基础软件自主创新分享周 timetravel SQLextensions forbatchprocessing update/delete mergeinto ACID MVCC schemaevolution 网易数帆数字化基础软件自主创新分享周 网易数帆湖仓一体创新之路 数字化基础软件自主创新分享周 所读即所写 •Deltalake/iceberg是tableformat,是元数据封装 •CDC数据写入后需要用户调用MERGEINTO合并数据 •流式摄取带来海量小文件问题,需要用户optimize 网易数帆数字化基础软件自主创新分享周 •需要用户自己调用optimize来排序 实时能力不足 •基于Lakehouse的流计算延迟在分钟级别 •需要引入消息队列实现毫秒/秒级流计算 •需要用户自己保障数据一致性 lakehouse lakehouse lakehouse 订单原始表 推荐 风控 订单 大屏 报表 ML挖掘 商品原始表 交易明细表 商品 用户原始表 用户 距离流批一体还差什么? •实时CDCingestion •实时CDCsubscription 网易数帆数字化基础软件自主创新分享周 •秒级/毫秒级需要引入消息队列 •实时多表join需要引入kv? •用户需要自己同步kv? •能否用一套代码?能否用用户熟悉的代码? 我们的目标 •提供可靠的Lakehouse服务 网易数帆数字化基础软件自主创新分享周 •解决主流Lakehouse的不足 •面向更多流批一体的场景 •尽可能不要重复造轮子 •寻求代际型解决方案 Arctic是什么? 网易数帆数字化基础软件自主创新分享周 Arctic是搭建在apacheiceberg表格式之上的开放式流式湖仓服务。Arctic面向流场景提供优化的CDC和流式更新能力;也可以开放式地集成MQ,KV等中间件,向flink、spark、trino提供流批统一的表服务;通常情况下,arctic像一个独立的数仓服务,用户无需关心数据存储结构,大小和分布,或是否引入其他中间件 透明的流式湖仓服务 •CDCingestion 网易数帆数字化基础软件自主创新分享周 •Streamupsert •小文件合并 •结构自优化 lookupjoinbatchjoin 流批一体功能封装 网易数帆数字化基础软件自主创新分享周 •毫秒/秒级延迟流计算 •分钟级延迟流计算 •小时级延迟批计算 •流和批场景下的关联计算 streamwrite batchwrite streamread seconds seconds minutes minutes hours hours batchread spark flink Impala/t •基于Arctic流批一体表服务 •研发过程统一 网易数帆数字化基础软件自主创新分享周 •研发规范统一 •指标语义统一 •存储统一,消除孤岛 •降本提效 应用层 Arctic spark flink Arctic spark flink 数据源 rino LakeStorage ArcticvsHudi Arctic定位 •Streaminglakehouseservice •Builtonicebergtableformat •与iceberg/hive完全兼容 •复用iceberg功能 网易数帆数字化基础软件自主创新分享周 schemaevolve,hiddenpartitionetc. Arctic专注于 •Streamupsertondatalake •Selfoptimizedservice •流批一体功能封装 •方法论与标准化工具. Arctic Hudi Process/QueryEngines HudiDataLake 网易数帆数字化基础软件自主创新分享周 总结与规划 数字化基础软件自主创新分享周 Arctic:基于Iceberg的流式湖仓服务 网易数帆数字化基础软件自主创新分享周 •基于主键的流式更新 •数据自优化服务 •与iceberg/hive表格式兼容 •流批一体功能封装 核心竞争力 •格式兼容,架构开放 •解决oneortheother的问题 Arctic:基于Iceberg的流式湖仓服务 网易数帆数字化基础软件自主创新分享周 •基于主键的流式更新 •数据自优化服务 •与Iceberg/Hive表格式兼容 •流批一体功能封装 7月开源,不见不散 网易数帆数字化基础软件自主创新分享周 THANKS 感谢观看