—2023— 字节跳动批流一体存储实践 演讲人:耿筱喻—火山引擎—技术专家 背景与挑战设计方案落地场景未来规划 背景与挑战 传统数仓架构 批流一体架构 •批流一体SQL f"i$k •一套SQL同时流式执行用于实时构建及批式执行用于离线回溯 f"i$k •一套SQL同时支持数据构建与数据分析 •批流一体存储 f"i$k •一份存储同时支持流式的增量读写以及批量读写 •支持高效的OLAP查询 •支持高效的维表Join LAS(LakehouseAnalysisService) 湖仓 分析 平台 湖仓分析引擎 湖仓开发工具 队列管理数据管理查询分析作业管理权限管理生态连接 湖仓分析引擎批流一体SQL SparkPrestoFlink 统一元数据 统一目录权限管控元数据发现 •统一元数据 •ACID支持 •企业级权限管控 •极致弹性 •引擎极致优化 其他数据源 TOS EMR RDS MQ 湖仓存储 内置存储 分布式文件存储 批流一体存储引擎 湖仓存储 弹性资源VKE/VCI 经典实时数仓架构 •日志计算场景 •长周期计算场景 •全量计算场景 经典实时数仓架构 •实时存储不统一 •实时离线存储能够统一 •冷启动流程复杂且耗时 •回溯中间数据不可查 批流一体存储 批式 •分区并发更新 •Hive表读写吞吐 流式 •低延迟 •写入/消费RPS •一致性语义 多引擎支持 批流一体存储方案 湖仓一体架构 Hudi 批流一体存储架构 批流一体存储架构 数据组织形式 批流一体存储架构 数据读写方式 BTS架构 落地场景 流式数据计算场景 多维分析场景 日志场景批流复用场景 飞书数仓 飞书实时数仓 未来规划 未来规划 •业务场景探索 •负载分离/均衡 •查询优化 •NativeEngine集成 感谢您的观看