登录
注册
回到首页
AI搜索
发现报告
发现数据
专题报告
研选报告
定制报告
VIP权益
发现大使
发现一下
热门搜索:
新能源车
AIGC
Chatgpt
大模型
新质生产力
低空经济
当前位置:首页
/
行业研究
/
报告详情
/
4-2 实时数仓的场景剖析与架构搭建实战
交通运输
2022-07-19
DataFunSummit2022:大数据存储架构峰会
棋***
AI智能总结
查看更多
数仓架构演进
实时湖仓架构
:
数据实时发送至Kafka(Amazon MSK托管Kafka服务),RDS通过CDC工具将变更日志发送至Kafka。
Flink CDC可直接连接RDS,但若数据多端消费,建议使用DataStreamAPI消费Kafka。
下游从Kafka接收数据并写入Hudi或Iceberg,底层存储选择S3实现存算分离,各层均可进行OLAP查询。
EMR提供Hadoop生态服务,支持LakeHouse的弹性算力。
ADS层数据
:
按需Sink到对应存储,使用OpenSearch(开源,前身ElasticSearch)。
Redshift作为Amazon云原生高性能数仓。
实时计算
是否需要更轻的服务?
Amazon Analytics Serverless服务
无服务器实时湖仓架构
:
包含Amazon Redshift Streaming Ingestion、Kinesis Data Streams (KDS)、Kinesis Data Analytics (KDA) Flink Runtime等组件。
Redshift 实时数据摄入能力
Redshift 实时数仓
:
与实时计算原生集成,实现快速流数据摄入。
日志数据通过Kinesis Producer Library (KPL) 或 Kinesis Agent 发送到Kinesis Data Stream (KDS),KDS是Serverless服务,支持API方式扩缩容。
Redshift Streaming Ingestion可以直接消费Kinesis Data Stream到Redshift,支持秒级数据延迟,30万吞吐(2KB大小),延迟小于30秒。
通过KDA(Flink Runtime)消费KDS中的数据,流计算结果Sink到RDS或KV对外提供API查询。
RDS中的数据通过DMS支持CDC同步到Redshift,支持增量变更和全量同步。
使用DMS或其他CDC工具(如Debezium,Flink CDC等)将CDC数据发送到Kinesis,通过Redshift Streaming Ingestion + 存储过程进行CDC数据实时写入Redshift。
Redshift 实时数仓 + ML
Amazon Serverless 预览版
:
你可能感兴趣
京东实时数仓治理与实战
京东
2022-11-15
02-小红书云原生实时数仓的建设与实践-王成
文化传媒
ArchSummit北京2023|全球架构师峰会
2023-06-06
6-2 StarRocks 的实时数仓之路
钢铁
DataFunSummit2022:现代数据栈技术峰会
2022-11-02
2023年8月中国数据库行业分析报告-实时数仓,智能决策
信息技术
墨天轮
2023-08-28
实时数仓市场厂商评估报告:SelectDB
爱分析
2023-06-15