您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[Streaming Lakehouse Meetup]:阿里云(王峰):湖仓一体全面开启实时化时代 - 发现报告
当前位置:首页/其他报告/报告详情/

阿里云(王峰):湖仓一体全面开启实时化时代

2024-07-02王峰Streaming Lakehouse Meetup小***
阿里云(王峰):湖仓一体全面开启实时化时代

湖仓一体全面开启实时化时代 王峰(莫问) 阿里云开源大数据平台负责人 StreamingLakehouseMeetup DataLake+DataWarehouse=DataLakehouse DataWarehouse DataLakehouse DataLake DataLake ApachePaimon–UnifiedLakeFormat AlakeformatthatenablesbuildingaRealtimeLakehouseArchitecturewithFlinkandSparkforbothstreamingandbatchoperations ThePast,PresentandFutureofApachePaimon Paimon BecameApacheIncubatingProject •RenametoApachePaimon •OpentoothersratherthanFlink Paimon BecameApacheTop-Level-Project •GraduatedfromApacheSoftwareFoundation •IntegratedwithFlink/Spark/Presto/… 2022.01 2023.03 2023.12 2024.03 2024.10 TableStore Paimon Paimon-1.0 InitializedinApacheFlink •SubProjectofApacheFlink •Originalname-FlinkTableStore GAVersionRelease •ProductionReady •ForBothStreaming&Batch UnifiedLakeFormat •UnifiedforStreaming/Batch/OLAP •CompatiblewithApacheIceberg StreamingLakehouseisComing ODS DWD DWS ADS ApachePaimon LSMTree 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 DataLake HoursMinutes,Seconds Application CDC StreamingIngestion Database ApachePaimon已明确为阿里巴巴统一数据湖格式 阿里巴巴集团数据业务 阿里云海量客户 RealtimeCompute E-MapReduce MaxCompute Hologres ApachePaimon LSMTree 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 DataLake Thanks StreamingLakehouseMeetup ApachePaimon 统⼀⼤数据湖存储底座 李劲松/ApachePaimonPMCChair StreamingLakehouseMeetup 01 CONTENT 目录>> 从孵化到毕业,Paimon的发展与场景 02 统一存储底座,Paimon与流、批、OLAP 03 完整生态集成,Paimon的计算引擎推荐 04 阿里巴巴实践,Paimon数据湖战役 01从孵化到毕业,Paimon的发展与场景 数据架构的演进:流批一体的Lakehouse Warehouse:天级 Lakehouse:天级/小时级 StreamingLakehouse:分钟级 StreamingWarehouse:秒级 Apps Apps Apps Apps MetaData,TableFormat BatchETL MetaData,TableFormat StreamBatchETL StreamETL BatchETL Batch DataLake Batch StreamBatch DataLake BatchStream Stream LOG CDC LOGCDC LOGCDC LOGCDC Paimon前身FTS诞生的特点与优势 1.深度集成Flink流式计算 2.流读流写+融合状态计算 1.低成本的支持了湖上更新 2.开放的数据、格式、计算 1.面向国内企业解决问题 2.沟通和响应更加顺畅 01实时数据湖02流式数据湖03国人主导社区 147+ Contributors Paimon社区的发展 2500+ Commits 2k+ Stars 160 120 80 40 0 147 8X 16 20222024 3000 2500 2000 1500 1000 500 0 2500 6X 400 20222024 2500 2000 1500 1000 500 0 2k 6X 300+ 20222024 Paimon的核心场景 CDC入湖 •一键整库入湖,大幅简化 架构 •近实时更新,极速查询 •灵活更新:部分列更新, 多种聚合更新 构建流式链路 •变更日志生成机制,融合 状态计算 •真正的队列:消费者机制、 变更日志单独生命周期 •轻状态低成本的流式链路 极速OLAP查询 •Z-Order+索引结合计算 极速分析 •引擎平权发展:Flink, Spark,StarRocks,Trino 02统一存储底座,Paimon与流、批、OLAP ODS DWD DWS ADS ApachePaimon 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 DataLake CDC StreamingIngestion 流、批、OLAP一体化架构 Application Database Paimon的统一存储发展 流 •与Flink深度集成,共同往前发展 •继续提升更新能力,更新是流的基础 •扩大流写流读的场景,分钟级覆盖全场景 批 •结合Flink打造流批一体架构,流批一体 计算+流批一体存储 •深度集成Spark,打造State-Of-Art的 批读批写性能 OLAP •深度集成OLAP引擎:StarRocks、 Trino等 •推广DeletionVectors模式,近实时更 新,极速查询 •加强Z-Order及丰富的索引,加速查询 03完整生态集成,Paimon的计算引擎推荐 Paimon计算生态 04阿里巴巴实践,Paimon数据湖战役 阿里巴巴业务应用场景 45 业务 •流式湖仓提升时效性 •CDC入湖降低成本 •离线分析查询加速 进展 •目前还仍处于初步阶段 •继续整合内部计算系统 •权限系统完整数仓体验 收益 •大幅降低实时化成本 •流批一体化开发体验 •解锁开放式计算能力 2万+FlinkCu 45 100+作业 20+业务方 ServerlessSpark ServerlessStarRocks 统一湖存储:打通阿里云所有计算引擎 ServerlessFlink MaxCompute Hologres ApachePaimon 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 DataLake Paimon与ServerlessFlink Paimon与MaxCompute CREATECATALOG`dw`WITH( 'type'='paimon','metastore'='maxcompute', ... ); INSERTINTO dw.order_dw.dwd_ordersSELECT…… ⾃动注册外表 MaxCompute 查询ETL Thanks StreamingLakehouseMeetup 探索ApachePaimon在阿里智能引擎的应用场景 王伟骏(鸿历) ApacheYarn&&FlinkContributor阿里巴巴智能引擎事业部技术专家 StreamingLakehouseMeetup 01 CONTENT 目录>> 阿里智能引擎AI业务背景介绍 02 引入Paimon原因、场景及预期收益 03 遇到的问题及解法 01阿里智能引擎AI业务背景介绍 业务场景及特点 Transactions AlgorithmdataEvents Logs … Binlog MessageQueue DatabaseFileSystemODPS … OfflineSystemStreamProcessing BatchProcessing 1、异构数据源多 2、业务逻辑复杂 MessageQueue FileSystemODPS … SearchEngine AdvertisingEngine RecommendationEngine SampleEngine … 3、性能调优难、运维门槛高 千级 应用规模 万级 作业规模 PB级 日处理数据量 百万级 增量TPS 秒级 增量延迟 10年+ 支持双11 产品介绍及成果 流批一体 一次开发 内部同一份存储可同时用于流处理和批处理 端到端开发 一个ETL流程 自动管理作业依赖及衔接屏蔽异构对接 一站式平台 拖拉拽UI开发,无需大数据背景一站式开发运维 屏蔽背后大数据技术,享受平台技术升级红利 产品定义:提供AI领域端到端的ETL数据处理解决方案的一个产品愿景:Makee2ebigdataprocesseasyandefficient! 产品技术架构 … OpenSearch Lazada ⻜猪 AE ⾼德 菜⻦ 本地⽣活 天猫 淘宝 ⽀持业务 Embedding 时序数据 特征 视觉平台 评测 ⼤模型 离线推理 样本平台 搜推平台 UI&&WebIDE(开发、配置、运维、监控) 产品端 调度编排 OLAP AdHoc SQL 样本处理 ⽤户插件 流批⼀体 批计算 流计算 数据集成 核⼼功能 计算存储调度 Hippo Airflow Pangu(分布式⽂件系统) 湖表存储优化服务 Paimon湖格式 Hologres 分布式kv存储 Swift消息队列 Catalog(Meta、版本、⾎缘、Dataset) ASI(⽀持K8S协议的统⼀调度、统⼀资源池) … UDxF Connector … ODPS TT Spark HA3 DRC VVR Paimon TDDL VVP(SDK提交作业、开发、运维) 依赖组件 02引入Paimon原因、场景及预期收益 引入Paimon原因 公司战略 公司要建立集团数据湖生态,湖仓协同,促进集团数据资产集中存储,高效使用。 成本 45 存储成本居高不下,很多实效性要求不高的场景,其实没必要用成本较高的分布式存储服务来支持。 解决Lambda架构缺点 Lambda架构开发维护复杂存在资源浪费情况 优化 45 我们调用发现数据湖在某些场景下可以解决业务性能瓶颈。 基于以上几个原因,我们深度对比了业界几大数据湖产品(Paimon、Iceberg、Hudi)之后, 结合业务需求及社区发展情况等因素综合考虑,最终选择了ApachePaimon作为我们数据湖的湖格式。 探索场景及预期收益一、样本生成链路 流样本(Flink+KV存储) ODPSODPS 消息队列 SortMergeJoin 索引平台 在线检索引擎 一、原链路缺点 消息队列 DimJoin KV存储 ETL KV存储 DimJoin TT(用户点Sync 击日志) KV存储 KV存储 ETL KV存储 1、流批不统一,完全两条处理链路。 2、时效性要求不高但是存储服务的资源成本却居高