行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

B站基于Iceberg构建秒级响应湖仓一体平台的技术实践

信息技术 2023-07-12 DataFunSummit2023：数据湖架构峰会 four_king

现状与背景

Hive数仓痛点：查询性能低（无法满足交互式分析）、出仓链路复杂、数据冗余、时效性差。
目标：实现查询高效、使用便捷。

湖仓一体架构与Iceberg表结构

Iceberg表结构特点：
- 文件级别的元数据管理。
- 开放格式，完善的tablespec定义。

查询加速技术

排序优化：
- Iceberg表记录每列的MinMax统计信息，用于planfile文件过滤。
- 数据排序后过滤效果更佳。
- InterleaveOrder和HilbertCurve提升聚集性。
- 基于Boundary Index的Z-ORDER计算。
索引优化：
- BloomFilter（小空间、支持等值查询、有false positive）。
- Bitmap（大空间、支持等值和范围查询、精准匹配行号）。
- BloomRF（分段单调有序哈希函数、支持等值和范围查询）。
- TokenBloomFilter/NgramBloomFilter及TokenBitmap/NgramBitmap（用于日志场景）。
预计算：
- Cube/AggIndex：文件级聚合，支持单表和星型模型，定义维度字段和聚合值（Count、Min、Max、Sum、Avg等）。
- 聚合值处理：可累加的存储聚合值，不可累加的存储binary中间结果。
- 查询改写：判断聚合计算是否符合cube定义，改写逻辑计划，TableScan切换到cube模式。
- 仅有部分文件生成Cube时，未生成Cube的数据现场计算，与Cube数据union后再global merge。
Star-TreeIndex：
- 参考ApachePinot实现，Cube定义选取最细粒度维度字段，响应不同维度组合查询。
- Cube数据量随维度数量增长，按维度字段排序分层创建star-tree，生成starrecord，根据split threshold判断是否创建子节点。

智能优化

Magnus服务：
- 后台优化。
- Iceberg表详情展示。
- 智能推荐。

现状与落地情况

主要场景：BI报表、指标服务、A/B Test、人群圈选、日志。
落地数据：
- Iceberg表总量5PB，日增75TB。
- Trino查询P95响应时间5s。

B站基于Iceberg构建秒级响应湖仓一体平台的技术实践李锐—哔哩哔哩—资深开发工程师智能优化现状背景背景 Hive数仓的痛点 •查询性能达不到交互式分析的要求•出仓链路复杂•数据冗余•时效性不好我们的目标查询高效使用便捷湖仓一体架构 Iceberg表结构 Ø文件级别的元数据管理Ø开放格式，完善的tablespec定义查询加速排序 •Iceberg表在文件级别记录每个列的MinMax统计信息•可用于planfile时的文件过滤•数据经过排序后有更好的过滤效果 InterleaveOrder HilbertCurve聚集性更好基于Boundary Index的Z-ORDER计算索引 •多维排序字段越多效果越差 •对于基数较高的字段，文件级别的索引有较好的过滤效果索引 •BloomFilter •占用空间小 •存在false positive、只支持等值查询 •Bitmap •占用空间大 •支持等值和范围查询、精准匹配行号，可进一步skip数据索引 •BloomRF •分段单调有序哈希函数，支持等值和范围查询•存在false positive •TokenBloomFilter、NgramBloomFilter •分词后构造BloomFilter索引•用于日志场景 •TokenBitmap、NgramBitmap•分词后构造Bitmap索引•用于日志场景预计算 •Cube/AggIndex，针对聚合计算•支持单表和星型模型•定义维度字段、聚合值•支持Count、Min、Max、Sum、Avg、Count_Distinct、Percentile、TopN等聚合函数•文件级别聚合预计算 •维度字段（关联列）：d_year，p_brand，s_region•聚合值：sum(lo_revenue) Cube文件的生成与管理聚合值的处理 •由于是文件级的聚合，所以查询时还需要对每个文件的聚合结果进行global merge•对于可直接累加的聚合值（如MIN、MAX、COUNT），直接存储聚合值•对于不可直接累加的聚合值（如AVG、COUNT_DISTINCT），存储binary类型的中间结果查询改写 •判断聚合计算是否符合cube定义•改写逻辑计划•TableScan切换到cube模式仅有部分文件生成Cube •没生成Cube的数据现场计算•与Cube数据union后再做globalmerge•仅适用于少量文件没有Cube的情况 Star-TreeIndex •参考ApachePinot的实现•Cube定义选取最细粒度的维度字段•可响应不同维度组合的查询•Cube数据量随纬度数量增长 Star-TreeIndex Cube定义维度字段：Dim1、Dim2、Dim3聚合值：Count Cube数据按照维度字段排序分层创建star-tree，生成starrecord根据split threshold判断是否创建子节点智能优化目标 Magnus服务 •后台优化 Magnus服务 •Iceberg表详情展示 Magnus服务 •智能推荐 Magnus服务 •智能推荐现状主要场景 •BI报表•指标服务•A/B Test•人群圈选•日志落地情况 •Iceberg表•总量5PB•日增75TB •Trino查询 •P95响应时间5s 感谢您的观看李锐—哔哩哔哩—资深开发工程师

点击免费查看完整报告

B站基于Iceberg构建秒级响应湖仓一体平台的技术实践

现状与背景

湖仓一体架构与Iceberg表结构

查询加速技术

智能优化

现状与落地情况

你可能感兴趣

6-3 网易 Arctic：基于 Apache Iceberg 构建的实时湖仓一体系统

4 杭银消金-基于 StarRocks构建Xihu湖仓一体平台实践

Iceberg 湖仓一体在 B 站的实践 - 李锐

基于 IceBerg 湖仓一体架构演进

基于Kyuubi和Hudi的湖仓一体实践

Iceberg 在湖仓建设的若干实践

祝佳俊-Apache Iceberg 在网易严选批流一体的实践

数据湖 Iceberg 在小米的落地及实践

1-2 邵赛赛-湖仓一体在腾讯的实践落地

机构建商会级 AI 平台的架构策略和实践 - 李欣欣