登录
注册
回到首页
AI
搜索
发现报告
发现数据
发现专题
研选报告
定制报告
VIP
权益
发现大使
发现一下
行业研究
公司研究
宏观策略
财报
招股书
会议纪要
海南封关
低空经济
DeepSeek
AIGC
大模型
当前位置:首页
/
行业研究
/
报告详情
6-3 网易 Arctic:基于 Apache Iceberg 构建的实时湖仓一体系统
信息技术
2022-07-18
DataFunSummit2022:多维分析架构峰会
光***
AI智能总结
查看更多
网易ARCTIC基于APACHE ICEBERG构建的实时湖仓一体系统
业务当前的挑战Lambda 架构下流与批割裂带来的问题
Lambda 架构问题
:当前采用 Lambda 架构进行数据处理,存在流批计算割裂的问题,导致数据孤岛、独立采购和部署、冗余存储浪费成本、难以数据复用和互通、研发体系割裂、研发人效低、研发规范不通用、应用层视图合并复杂、指标和语义二义性等问题。
场景分析
:通过两个场景(初步引入实时化和更加复杂的实时化)展示了 Lambda 架构下数据处理的复杂性和低效性。
基于iceberg 构建的湖仓一体系统
Arctic 定位
:Arctic 是定义在 Hive/Iceberg 表格式之上,计算引擎之下的 TableService,并提供表结构优化以及 Kafka 封装的实时湖仓系统。
Arctic Table 功能特性
:
Hive/Iceberg 兼容
:支持 Hive 的摄取与计算场景(T+1/T+H 场景),以及 Iceberg/Delta Lake 的摄取与计算,通过快照隔离实现 MVCC 和 ACID,支持数据实时摄取。
Batch 和 Stream 写入区分
:将 Batch 和 Stream 写入的文件进行区分,分为 change store 和 base store,通过异步的 optimizing 对 stream 写入的文件进行合并,并提供了小文件治理、唯一键保证和 upsert 的能力,并通过 ArcticTable 封装的接口提供 merge on read,实现准实时的读写能力。
Primary Key 支持
:支持 Primary Key,支持 CDC ingestion,实现 Upsert 语义,主键唯一性约束实现,Merge on read,optimize,未来扩展 Sort Key / Agg Key。
Auto Optimize
:包括 Minor Optimize(约 10min 一次,优化小文件数量,eq-del 转换为 pos -del,只针对 change file)和 Major Optimize(约 1 day 一次,合并 change file 到 base file,兼容 Hive 读)。
流批一体表(支持 CDC)
:下游可订阅 Arctic 表变更,支持 Hidden Queue,秒级延迟订阅,通过消息回撤实现最终一致性,arctic-flink-connector 封装双写和回撤实现细节。
流批一体表(双写一致性保证)
:通过 Hidden Queue 和 Retract 机制实现双写一致性保证。
流批一体表(支持Lookup join)
:通过 Hidden kv index 支持 lookup join,同样不需要关心实现细节,Arctic Table 可以直接当维表用。
流批一体表(支持Temprol join 规划中)
:基于 Flink1.12 Temprol Table(时态表)功能,不需要引入额外的 KV 组件,支持 event time join。
并发写入与一致性保证
:通过 AMS 分配 txId,标记记录写入先后顺序,Merge on read 时,确认可见 record 为哪一个,Minor/Major Optimize 时,确认应该保留哪一个 record。
Hive 兼容
:支持 hive 表原地升级为 Arctic 表,支持将 Arctic base store 作为 hive 表读取,支持将 Arctic 表作为 hive 表写入(INSERTOVERWRITE),通过 optimize 实现实时写入到 hive 表数据的同步,自动识别 Hive 写入文件。
Arctic Meta Service (AMS)
:被定义为新一代的 HMS,负责 Arctic Table Metadata 管理,分配事物 ID,面向计算引擎的元数据服务,触发结构优化任务,Optimizer 调度与资源管理,提供运维友好的 Dashboard。
AMS Dashboard
:展示 Transaction 提交的文件信息,Table Optimizer 任务执行信息。
业务实践Arctic 在网易内外的实践
推送营销分析案例
:展示了如何使用 Arctic 进行推送营销分析,通过 merge on read 推送分析报表,通过 base 和 kv index 提供实时数仓能力,优化报表响应时间 10x-100x。
未来规划
更多流批一体场景
:Rollup 聚合视图,Sort Key 支持,部分列的 Stream upsert,支持 Temprol Join。
更强的 Dashboard
:任务血缘与数据血缘,SQL 自助查询。
安全体系完善
:支持开放式的权限插件,支持对接 Ranger。
数据湖支持
:S3/OSS。
开源计划
:预计 6 月底,敬请期待。
你可能感兴趣
B站基于Iceberg构建秒级响应湖仓一体平台的技术实践
信息技术
DataFunSummit2023:数据湖架构峰会
2023-07-12
基于 IceBerg 湖仓一体架构演进
网易
2023-03-09
1-2 基于 Apache Doris 构建实时统一的现代数据分析平台
信息技术
DataFunSummit2022:现代数据栈技术峰会
2022-11-02
网易流批一体的实时数据湖实践 -周劲松
信息技术
ArchSummit北京2022|全球架构师峰会
2022-11-02
祝佳俊-Apache Iceberg 在网易严选批流一体的实践
文化传媒
DataFunSummit2022:大数据计算架构峰会
2022-05-19