登录
注册
回到首页
AI搜索
发现报告
发现数据
发现专题
研选报告
定制报告
VIP权益
发现大使
发现一下
对等关税
新质生产力
低空经济
DeepSeek
AIGC
人形机器人
智能驾驶
大模型
固态电池
半导体
银发经济
当前位置:首页
/
行业研究
/
报告详情
/
4-1 流批一体的实时多维分析
金融
2022-07-18
DataFunSummit2022:多维分析架构峰会
Z***
AI智能总结
查看更多
大数据架构演进
经典离线数仓架构
ODS
:操作数据层,存储基础数据,做简单数据清洗。
DWD
:明细数据层,构建最细粒度的明细层。
ADS
:事实表汇总数据层,按照主题,对明细数据进行汇总。
DWS
:应用数据层,存放业务个性化统计指标,面向最终展示。
优缺点
:
优点:架构简单,开发成本低;资源成本低;数据易管理,差异少。
缺点:数据时效性差,缺少实时数据;优点缺点表数量太多。
Lambda架构
数据源
:ODS、DWD、ADS。
Batch Layer
:消息队列、ADSDWSDWDODS。
Speed Layer
:替换Serving Layer。
优缺点
:
优点:保证数据准确性和时效性,兼容经典离线数仓体系。
缺点:一个需求两套代码,资源占用多;实时数据和离线数据差异。
Kappa架构
数据源
:消息队列、流式计算。
Real-time Layer
:ODSDWSDWDADS。
Serving Layer
:DWD。
优缺点
:
优点:一套数据流,开发成本低;省掉离线数据流计算资源;实时离线数据逻辑统一。
缺点:数据回溯成本高;复杂关联场景开发维护成本高;历史包袱的迁移成本高。
流批一体方案
背景
旧架构问题
:
表太多:数仓分层建设,表数量太多,使用成本高。
查询慢:表关联场景众多,查询时效慢。
实时分析弱:实时报表太定制化,缺少多维分析能力。
方案
数据查询引擎
:多维分析+自助报表。
文件系统
:消息队列、策略信号。
实时报表
:实时应用。
数据离线清洗
:天级别更新字段实时更新字段。
流式计算
:流批一体分钟级merge。
实时数据仓库
:分钟级宽表。
关键问题突破
DB数据更新问题
背景
:日志采集、消息队列、流式计算、文件系统。
解决方案
:DB Binlog 消息队列流式计算,分钟级 delta 文件初次 dump。
多表关联问题
背景
:文件系统、查询引擎。
解决方案
:流式计算初次 dump。
DB和日志关联问题
背景
:文件系统、查询引擎。
解决方案
:日志采集消息队列流式计算,分钟级 delta 文件。
数据到位时间问题
背景
:所有依赖表数据都产出。
解决方案
:LOG DB 表 DB 和日志关联解决方案,字段实时产出。
总结和规划
总结
架构选型要符合业务现状,解决业务实际问题。
架构选型要综合考量资源、复杂度、维护成本。
规划
引擎查询性能持续提升。
上层查询工具体验优化。
查看更多
你可能感兴趣
网易流批一体的实时数据湖实践 -周劲松
信息技术
ArchSummit北京2022|全球架构师峰会
2022-11-02
祝佳俊-Apache Iceberg 在网易严选批流一体的实践
文化传媒
DataFunSummit2022:大数据计算架构峰会
2022-05-19
【财联社早知道】首次明确!国家数据局将实施“数据要素X”行动,行业有望进入加速发展期,这家公司具备六位一体的大数据核心能力;冬季呼吸道传染病高发,它研发了国内第一个获批临床的甲流病毒RNA聚合酶抑制剂
未知机构
2023-11-26
张静- ApacheFlink流批一体的规划和在快手的进展
信息技术
DataFunSummit2022:大数据计算架构峰会
2022-05-19
字节基于HUDI的批流一体存储实践
信息技术
DataFunSummit2023:数据湖架构峰会
2023-07-12