登录
注册
回到首页
AI搜索
发现报告
发现数据
发现专题
研选报告
定制报告
VIP权益
发现大使
发现一下
对等关税
新质生产力
低空经济
DeepSeek
AIGC
人形机器人
智能驾驶
大模型
固态电池
半导体
银发经济
当前位置:首页
/
行业研究
/
报告详情
Iceberg 湖仓一体在 B 站的实践 - 李锐
交通运输
2022-11-01
ArchSummit杭州2022|全球架构师峰会
嗯***
AI智能总结
查看更多
Iceberg湖仓一体在B站的实践
背景
需求
:解决数据出仓链路复杂、维护麻烦、数据冗余及查询性能不足等问题。
挑战
:Hive数仓实时性不足,只能达到天级或小时级分区。
数据湖到湖仓一体的演化
目标
:实现灵活、高效、便捷的数据管理和查询加速。
查询加速
优化思路
:
多维分析常见模式:关联 → 过滤 → 聚合 → 排序。
大宽表或星型模型。
尽可能过滤掉不必要的数据。
数据排序组织
:
每个列记录Min/Max统计信息。
Z-ORDER通过边界索引计算z-value。
Hilbert曲线Z-ORDER具有更好的聚集性。
索引
:
Bloomfilter索引:计算简单,占用空间小,但存在False Positive。
Bitmap索引:适用于等值和范围过滤条件,但占用空间大。
测试结果
SSB测试
:1TB数据,大宽表模式。
星型模型预计算
:
维度字段:d_year, p_brand, s_region。
聚合值:sum(lo_revenue)。
Cube文件生成与管理
:
文件级别聚合。
可直接累加的聚合值直接存储;不可累加的存储二进制中间结果。
查询改写
:判断聚合计算是否符合cube定义,改写逻辑计划,切换到cube模式。
智能化服务
需求
:提升数据分析效率。
服务
:Magnus服务。
总结与展望
现状
:排序和索引功能已落地,每天处理10万次查询,P95响应时间约为5秒,平均扫描数据量为8000万。
未来工作
:
推进预计算的落地。
自动判断是否生成cube文件。
支持部分数据生成cube文件时响应查询。
智能化分析常用过滤字段和查询模式,自动创建索引和cube。
增强UPSERT能力,实现近实时湖仓。
你可能感兴趣
B站基于Iceberg构建秒级响应湖仓一体平台的技术实践
信息技术
DataFunSummit2023:数据湖架构峰会
2023-07-12
Iceberg 在湖仓建设的若干实践
建筑建材
DataFunSummit2023:数据湖架构峰会
2023-07-12
祝佳俊-Apache Iceberg 在网易严选批流一体的实践
文化传媒
DataFunSummit2022:大数据计算架构峰会
2022-05-19
1-2 邵赛赛-湖仓一体在腾讯的实践落地
文化传媒
2023 DAMS中国数据智能管理峰会
2023-05-08
数据湖 Iceberg 在小米的落地及实践
小米
2022-07-11