登录
注册
回到首页
AI
搜索
发现报告
发现数据
发现专题
研选报告
定制报告
VIP
权益
发现大使
发现一下
行业研究
公司研究
宏观策略
财报
招股书
会议纪要
海南封关
低空经济
DeepSeek
AIGC
大模型
当前位置:首页
/
行业研究
/
报告详情
Jingsong Lee - Flink Table Store:流批一体存储
信息技术
2022-05-19
DataFunSummit2022:大数据计算架构峰会
大***
AI智能总结
查看更多
核心观点与关键数据
业务需求
流批统一存储
:打造流式数仓,支持流写、流读、OLAP 可查询、毫秒级实时流读、批写(INSERT OVERWRITE)。
统一抽象
:提供最完善的 Flink Connector,支持 Flink SQL 所有概念、任意 Flink Job 输出、所有类型,同时要求 Managed、干净简单、支持大规模更新。
使用 Flink Table Store
表管理
:支持创建、删除物理表,具备数据库级体验。
统一查询
:基于执行运行模式(batch/streaming)进行查询,支持所有变更日志流。
统一写入
:支持流式写入和批式写入(INSERT OVERWRITE),支持大规模更新。
理解 Flink Table Store
LSM 结构
:采用 LSM(Log-structured merge-tree)作为核心数据结构,支持高效更新和快速读取。
文件格式
:采用列式存储格式,存储在 DFS 或云对象存储中。
性能优势
:通过 Key Min Max 定位文件,Sort Merge Join 合并文件,实现高效更新和读取。
业界更新方案对比
Copy on Write (DeltaFull)
:定位文件和合并文件效率高,但实时性低。
Delta Merge on Read (DeltaFull)
:本质是延迟的 Copy+New,效率仍受限。
Apache Hudi
:BloomFilter 假阳性问题、Flink State 问题影响性能和可用性。
Roadmap
V0.1
:无服务,首个 beta 版本。
V0.2
:无服务,生产版本(6-7 月)。
V0.3
:Table Store 服务(9-10 月)。
V0.4
:Table Store 服务,支持 Lookup(后续版本)。
项目与价值
项目信息
:Apache Flink 子项目,GitHub、用户文档、邮件列表、钉钉群。
短期业务价值
:实时中间层可查、离线数仓加速,提供增量更新能力和准实时 OLAP 查询。
分层设计
:Bronze/Silver/Gold 层级存储,支持实时查询和离线加速。
你可能感兴趣
1-3 Flink Table Store v0.2 应用场景和核心功能
信息技术
DataFunSummit2022:多维分析架构峰会
2022-07-18
字节基于HUDI的批流一体存储实践
信息技术
DataFunSummit2023:数据湖架构峰会
2023-07-12
祝佳俊-Apache Iceberg 在网易严选批流一体的实践
文化传媒
DataFunSummit2022:大数据计算架构峰会
2022-05-19
4-1 流批一体的实时多维分析
金融
DataFunSummit2022:多维分析架构峰会
2022-07-19
网易流批一体的实时数据湖实践 -周劲松
信息技术
ArchSummit北京2022|全球架构师峰会
2022-11-02