行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

02-小红书云原生实时数仓的建设与实践-王成

文化传媒 2023-06-06 ArchSummit北京2023|全球架构师峰会 Leona

背景：云原生落地前ClickHouse遇到的问题和挑战

痛点：
- 扩容难：扩容周期长，需要手动数据搬迁或重写；多副本机制引入中心瓶颈（ZK同步瓶颈，成本成倍增加，查询一致性问题）。
- 数据同步难：同步链路复杂，数据写入影响用户查询体验。
- 运维难：资源利用率低（平均CPU使用率低，容量预估困难，存储计算比例失调），用户查询体验不稳定（高峰期失败率高，多业务干扰无优先级管理）。
解决方案：自研云原生实时数仓，目标为灵活性、自主可控、符合多云战略。

云原生OLAP V1.0建设之路

架构：存算分离，基于云存储（COS/S3/OSS）无限扩展，计算资源池化（计算组弹性伸缩），共享元信息中心和存储。
关键特性：
- 分布式执行框架：分布式写入事务，弹性扩容和故障容错。
- 多级智能缓存：内存缓存、SSD缓存、对象存储缓存，基于查询历史智能缓存策略。
- 分层存储：云盘+对象存储，优化写入延迟、IOPS、可靠性和成本。
- 离线数据同步链路优化：从ClickHouse+Spark Writer优化为RedCK+Spark MergeTreeWriter，实现Exactly-once语义。
业务落地实践：
- 降本提效：RedCK通过弹性伸缩、混合部署提升资源利用率，降低存储成本（年节省几十TB，成本降低明显）。
- 运维优化：集群扩容小于30分钟，分钟级自动故障恢复。

实验平台

多租户管理：路由规则（业务、查询类型、在线/重/冷查询）+弹性扩容队列。

V-next：湖仓一体建设

背景：数据湖与实时数仓割裂导致冗余，现有实时数仓无法应对复杂ETL，查询方式差异引入额外成本。
方案：开放MergeTree格式，融合ODS/DW/Storage，支持ETL加工和Presto/Flink融合分析。
未来规划：持续推进湖仓统一，丰富引擎功能，实现自动敏捷弹性伸缩。

报告封面

点击免费查看完整报告

你可能感兴趣

基于 Apache Doris 的传统行业实时数仓建设实践

浪潮海岳2024-12-18

云音乐实时数仓治理优化实践

文化传媒DataFunSummit2023：数据治理在线峰会2023-07-13

“计算、感知、驱动” 金融实时数仓建设实践分享

网易2023-06-11

02-基于云原生Serverless和消息服务技术采集全球分布业务数据实践-马腾

信息技术ArchSummit北京2023|全球架构师峰会2023-06-06

基于云原生的作业帮大数据采集体系建设与迁移实践-伍思磊

信息技术ArchSummit上海2023|全球架构师峰会2023-06-06

移动云（陶捷）：海山数仓：移动云云原生OLAP数据库的技术演进与实践

信息技术-2024-08-26

中通快递基于SelectDB实时数仓的应用实践

信息技术中通快递2024-04-25

6-2 字节数据湖平台在实时数仓中的实践

信息技术DataFunSummit2022：多维分析架构峰会2022-07-18

众安保险实时数仓赋能金融精细化智能运营的落地实践

金融DataFunSummit2022：大数据计算架构峰会2022-05-19

SelectDB实时数仓在智慧港口中的应用实践

信息技术哪吒科技2025-01-14