登录
注册
回到首页
AI搜索
发现报告
发现数据
发现专题
研选报告
定制报告
VIP权益
发现大使
发现一下
对等关税
新质生产力
低空经济
DeepSeek
AIGC
人形机器人
智能驾驶
大模型
固态电池
半导体
银发经济
当前位置:首页
/
行业研究
/
报告详情
/
祝佳俊-Apache Iceberg 在网易严选批流一体的实践
文化传媒
2022-05-18
DataFunSummit2022:大数据计算架构峰会
喵***
AI智能总结
查看更多
数据架构现状
现状
:采用Lambda架构,实时和离线两套逻辑,导致离线数据实效性较低,依赖于快照制作。同步链路组件较多,维护难度大。
基于Iceberg的批流一体实践
批流一体
:通过Apache Iceberg实现批流一体化,减少组件数量,提高系统可维护性。
存储支持
:支持Upsert操作,并具备ACID特性,能够确保数据的一致性和事务性。
文件格式
:支持Parquet、Avro和ORC等多种文件格式。
计算引擎
:兼容Hive、Spark、Presto和Flink等计算引擎。
存储引擎
:支持HDFS、S3和Azure等多种存储引擎。
数据质量保障
:支持Schema变更和时间旅行功能,确保数据的可靠性和可追溯性。
Iceberg表治理
治理措施
:包括重写DeleteFile、合并DeleteFile和重排序等。
治理效果
:显著提升了数据管理和治理效率,保证了数据的一致性和完整性。
落地情况与未来规划
当前成果
:
已完成ODS层数据产出的批流融合。
离线数据延迟缩短至5分钟。
T+1快照的制作可提前半小时。
有500多个任务已经稳定运行。
未来规划
:
拓展更多场景,如特征工程、数仓DWD等。
提升管理产品的功能和体验。
加强查询性能,引入Presto和Alluxio。
引入Z-order和Bloom Filter等技术优化数据管理。
查看更多
你可能感兴趣
1-6 郭轶轩 - 流批一体在快手的探索实践
文化传媒
2024 DAMS中国数据智能管理峰会
2024-12-06
4-6 Apache Iceberg 在小红书的探索与实践
文化传媒
DataFunSummit2022:大数据存储架构峰会
2022-07-19
Iceberg 湖仓一体在 B 站的实践 - 李锐
交通运输
ArchSummit杭州2022|全球架构师峰会
2022-11-02
6-3 网易 Arctic:基于 Apache Iceberg 构建的实时湖仓一体系统
信息技术
DataFunSummit2022:多维分析架构峰会
2022-07-18
网易流批一体的实时数据湖实践 -周劲松
信息技术
ArchSummit北京2022|全球架构师峰会
2022-11-02