S架t构ar的Ro探ck索s与+P实ai践mon:阿里集团Lakehouse 范振(辰繁)阿里云计算平台开源OLAP负责人,StarRocks社区Champion 翁才智阿里云技术专家,ApachePaimonPMCMember 数据生产-低效 双重研发、资源浪费、数据口径核查难 当前痛点 阿里集团数据湖(ALake)项目背景 愿景和目标 数据存储-冗余 导敞出口效率低、数据多份冗余、数据安全 数据分析-孤岛 数据孤岛、很难形成合力 实时&离线流链批路统统一一、一套代码 无需导出、统一一份数存据储、权限对齐 不改变高业性务体能验分、更析低成本 Lakehouse业界趋势 开源开放 成为主流 AI浪潮 风起云涌 结构化/A非I、结BI构开放化互数通据统一 IDE 统一开发平台IDE/Notebook NLAnalysis NoteBookCopilot 数据 集成 RAG MC Spark 文本搜 Holo StarRocks 大数据 PlatformForAI 训练/推理/开发 搜索 OS ES Milvus 视频搜 Flink 图片搜 大数据搜索 AI引擎平权访问 引擎基于OneCopy 数据协同计算 Iceberg 统一存储OSS Paimon DLF Model Delta File DataWorks 全面升级为Lakehouse架构 BI+AI一体化 统一元数据和元仓 一湖多引擎 降本提效 *引用自阿里云2024云栖大会 WhyPaimon—最适合流/批/OLAP统一的湖格式 面向流处理的LakeStore开放的生态体系 典型大数据架构 output output 离线数仓 离线入仓 ODS DWD DWS 实时入仓 消息 队列 ODS 消息 队列 DWD 消息 队列 DWS 实时数仓 离线数仓 �架构简单,大量场景适用 �中间结果可查 �作业夜间运行 延迟较高:天级/小时级 �更新成本较高 实时数仓 延迟低:秒级中间结果不可查 �成本较高,场景有限 流式湖仓架构 流式湖仓 离线入仓 实时入仓 ODS DWD DWS output 实时更新 •主键表支持大规模的更新写入 •更新性能高效 •更新方式灵活 •完整变更日志生成 •分钟级延迟 海量追加 •非主键表支持大规模流批处理 •小文件自动合并 高效查询 •Z-order、索引、DeletionVector多种优化 •高效OLAP查询 数据管理 •PB级大规模数据管理 •支持时间旅行(数据版本回溯) •支持数据分支切换 •包含详细信息的系统表 Paimon丰富生态 PythonAPI CDCIngestion SQLQuery OSS 飞速发展的2024 2022 诞生:瞄准CDC 入湖更新场景 在Flink社区贡献了第一行代码 2024 2023:进入孵化器引发关注 2024:正式毕业成为ApacheTLP 项目 2023- 2024 阿里集团Alake数据湖战役 Paimon统一存储 2024 阿里云OpenLake战役 计算引擎+Paimon完整对接一流性能 2024 阿里、蚂蚁、同程旅行、 字节、汽车之家、喜马拉 雅、唯品会、VIVO、快手、网易、联通 1 1 1 1 1 Paimon在越来越多公司、越来越多场景,帮助业务更实时、更开放、成本更低 最适合PaiSmotna湖格r式R的oLackehkousse开源引擎 WhyStarRocks—查询Paimon湖格式性能最好的开源引擎 Plan优化 13倍性能提升 Runtime优化 数据Scan优化 OSS/S3极致优化 *以上为EMR公有云实际测试数据 StarOS WhyStarRocks—存算分离架构统一查询内表和湖表 灵活的物化视图 StarRocksControlPlane 元仓分析 故障节点调度屏蔽基于缓存的调度多Warehouse管理 健康报告 Profile诊断建议 Cache命中率分析库表粒度的缓存预热动态缓存淘汰策略 实时诊断分析 全链路可观测 FE FE FE 缓存信息收集 StarRocks存算分离集群 灵活的多表联邦 灵活的弹性和隔离 DLF湖表元数据 节点心跳信息 Warehouse-1ETL任务Warehouse-2查询任务 Catalog CN CN Cache CN CN Cache CN Scaling Cache CN Cache Cache Cache CN Cache Cache CN Cache CN Scaling 用户管理 CN Cache CN Cache Cache CN 权限管理 统一的缓存管理 StarRocks内表格式湖表格式Hive/Paimon/Iceberg/… WhyStarRocks—多方协作,社区强大,贡献开源 云上丰富场景 阿里集团 StarRocks 超大数据量场景 StEMRck 阿里云 arRo s StarRocks 社区 开源力量雄厚 A+流量分析 业务背景&目标 Paimon湖表&SR内表的Lakehouse 效果&收益 OLAP 分析 •非JOIN类场景快1倍 •JOIN类查询快5倍 背景: 目标: 更多实时数据和分析决策 事件分析 留存分析 FlatJ架son构内表 ADS 流批一体 DWD/DWS 流批一体 流批• • • 数据时效提前60分钟 开发效率提升50% 业务获取分钟数据门槛降低 一体•节省消息中间件和去重成本 Flat•JSON列化后存储减少50% •JSON列化导入百亿分钟级 Json•查询性能提升10倍 流量域入湖 数据开发效率需要提升 基于Paimon湖仓公共层 ODS 离线数仓 消息中间件 业务系统 日志服务器 业务数据库 基于StarRocks湖仓应用层 饿了么–Lakehouse架构升级 Kappa架构(实时数仓)痛点 •SSD高昂的存储成本,DWD层需要2份冗余存储 •Flink计算资源/处理成本高 •TT(类Kafka)无法支持检索和更新 StarRocksxPaimon架构(Lakehouse)收益 •Flink计算资源相较于原架构减少50% •存储成本减少90% •PaimonvsHudi时效性提高2x以上 •StarRocks相较于其他外表查询方案,多场景下均远远优于其他引擎,平均提升5-10倍 探索非结构化数据支持,探索AI+数据湖 共建 社区贡献,场景共建 后续规划和展望 业务 赋能集团更多业务,降本提效&实时化 StarRocks 技术 物化视图&基于Paimon的ETL 关注公众号 感谢观看!