登录
注册
回到首页
AI搜索
发现报告
发现数据
专题报告
研选报告
定制报告
VIP权益
发现大使
发现一下
热门搜索:
新能源车
AIGC
Chatgpt
大模型
新质生产力
低空经济
当前位置:首页
/
行业研究
/
报告详情
/
基于云原生消息系统构建实时数据仓库_刘德志
信息技术
2022-11-02
ArchSummit北京2022|全球架构师峰会
木***
AI智能总结
查看更多
Apache Pulsar 及其在实时数据仓库中的应用
Apache Pulsar 简介
社区活跃度
:GitHub 星标 10,000+,贡献者超过 500 名,每月活跃贡献者 70+。
使用情况
:广泛应用于多个领域。
Pulsar 架构
存储分离架构
:存算分离、节点对等、独立扩展、灵活扩容、快速容错。
计算层
:负责消息体的解析、封装和分发。Topic 分区均衡到不同 broker,一个 Topic 由多个 segment 组成,条带化写入。
存储层
:负责多副本写入和存储。多副本均衡到不同 bookie,Segment 作为最小写入单位,条带化写入,读写 IO 物理分离。
性能对比
吞吐量
:最大吞吐量为 Kafka 的 2.5 倍。
延迟
:消息发送延迟比 Kafka 低 100 倍。
追赶读
:历史读取速率比 Kafka 快 2.5 倍。
实时数仓挑战
Lambda 架构
:运维和开发成本高,数据一致性问题。
Kappa 架构
:消息回溯能力弱,无法直接分析数仓中间层数据,实时计算结果不准确。
实时数仓对消息队列的要求
高吞吐、低延迟。
企业级多租户、多协议、认证体系、统一消费模型。
金融级高一致、高可靠、跨地域复制。
Pulsar 的存储能力
支持批数据和流数据处理接口。
二级存储对接,实现归档存储、冷热分离、行列存储转换。
内置 Schema 注册,支持 Topic 级别消息验证和消息版本更新。
生态能力
基于 Pulsar 和 Flink 构建实时数仓。
方案优势包括高吞吐、低延迟、企业级特性和金融级可靠性。
案例分享
BIGO 借助 Flink 与 Pulsar 打造实时流平台。
社区资源
微信公众号:ApachePulsar / StreamNative
Bilibili:https://space.bilibili.com/391380821
邮件列表:dev@pulsar.apache.org, users@pulsar.apache.org
Slack:https://apache-pulsar.slack.com (#china)
GitHub:https://github.com/apache/pulsar, https://github.com/apache/bookkeeper, https://github.com/streamnative
你可能感兴趣
可观测性安全云原生时代数据驱动安全的进化 - 刘志诚
信息技术
EISS
2022-11-11
02-基于云原生Serverless和消息服务技术采集全球分布业务数据实践-马腾
信息技术
ArchSummit北京2023|全球架构师峰会
2023-06-06
火山引擎-张起彤-基于云原生范式构建开发者平台实践
信息技术
2023第十二届全球TOP100软件案例研究峰会
2024-08-21
手游量子智能广告系统基于云原生 OLAP 的应用实践
文化传媒
DataFunSummit2023:OLAP引擎架构峰会
2023-08-09
连林江—构建现代分析应用的实时数据仓库
信息技术
2023产业数据价值化峰会暨数栖大会
2023-08-08