登录
注册
回到首页
AI搜索
发现报告
发现数据
专题报告
研选报告
定制报告
VIP权益
发现大使
发现一下
热门搜索:
新能源车
AIGC
Chatgpt
大模型
新质生产力
低空经济
当前位置:首页
/
行业研究
/
报告详情
/
4-4 Iceberg 在微视实时场景的应用
文化传媒
2022-07-19
DataFunSummit2022:大数据存储架构峰会
M***
AI智能总结
查看更多
Iceberg在微视实时场景的应用
为何使用Iceberg
背景
:微视当前面临实时数仓成本高昂及两套计算存储数据一致性与成本的问题。
对比分析
:
Hive
:实时读写延迟较高,适用于离线批处理,查询效率好,但不适用于小文件和HMS扩展。
Kafka
:实时低延迟读写较差,适用于小文件和HMS扩展,但查询效率一般,不支持基于分区精确回溯。
Iceberg
:支持实时低延迟读写,查询效率高,支持小文件和HMS扩展,适合分钟级别的离线批处理,列存高压缩,谓词下推能力强,回溯性能好,成本较低。
如何使用Iceberg
结构
:
实时需求
:支持实时数据推送,实现CMS累计数据实时推送,包括账号累计指标(如
owner_id
、
play_vv
等)。
数据回溯
:支持新增指标、修改计算口径、数据修复等场景,通过Source将文件按表分区聚合并下发,Checkpoint按分区对齐,确保Exactly-once语义。
流转批场景
:Flink将数据时间写入快照元数据,快照元数据检查任务驱动下游批处理任务,实现流批一体化。
维护Iceberg表
数据维护
:
表大小缩减40%-70%,二次读写时间缩短30%,用户点查效率大幅提升,过滤文件95%以上。
原理
:通过优化存储格式(如ORC、Parquet),提高数据的局部相似度,提升压缩算法效率。
具体技术细节:文件总数减少,查询3个用户需要访问的文件数量显著减少,利用Manifest文件记录每列取值的上下界,从而高效过滤DataFile。
非常感谢您的观看。
你可能感兴趣
因果推断方法在微视激励和供需场景的应用与前沿方法探索 (1)
文化传媒
DataFunSummit2022:因果推断在线峰会
2022-12-16
因果推断方法在微视激励和供需场景的应用与前沿方法探索 (2)
文化传媒
DataFunSummit2022:因果推断在线峰会
2022-12-16
实时湖仓在视频号场景的应用实践
-
2024-12-29
Flink CEP 在实时风控场景的落地与优化
信息技术
DataFunSummit2023:智能风控峰会
2023-08-09
面向6G的泛在实时通信网络场景需求与关键技术研究报告
信息技术
IMT
2024-11-25