登录
注册
回到首页
AI搜索
发现报告
发现数据
专题报告
研选报告
定制报告
VIP权益
发现大使
发现一下
热门搜索:
新能源车
AIGC
Chatgpt
大模型
新质生产力
低空经济
当前位置:首页
/
行业研究
/
报告详情
/
6-4 字节跳动流式数仓和实时服务分析的思考和实践
信息技术
2022-11-02
DataFunSummit2022:现代数据栈技术峰会
表***
AI智能总结
查看更多
字节跳动流式数仓和实时分析服务的思考与实践
主要内容
背景
:字节跳动拥有今日头条、抖音等多个产品,每日服务数亿用户,产生大量数据和计算需求。
挑战
:
EB级存储空间
每天70PB数据增量
每秒百万次实时推荐请求
超过400万核流式计算资源,500万核批式计算资源
方案
流数仓和服务数仓融合
使用Flink动态表解决数据和系统冗余问题
基于Flink流批一体,解决数据冗余性和正确性问题
HSAP服务型引擎优化解决服务性能问题
流批一体的思考
存储结构
:
Sink Log Queue Columnar Merge Tree Distributed File System
Streaming Reading (读变化) Batch Reading (读快照) Lookup Join (按键读快照)
读取方式
:
流读:读取Log Changes
批读:读取快照
流批融合:混合读
Lookup:支持点查
流写:持续插入
批写:支持分区、支持overwrite
数据流端到端一致性
通过自动调度资源和中间表的事务性写入,保证数据处理流程的一致性。
云原生HSAP解决数据服务性能问题
云原生架构
:
全托管Serverless模式
存算分离实现极致弹性
高效分布式引擎
:
一体化多场景适配引擎
实时写入及更新
多种方式加速查询
物化视图满足数据预计算
向量化引擎
实时服务分析引擎
新一代云原生实时服务分析产品HSAP
:
支持海量数据实时写入、实时更新、实时分析
支持标准SQL(兼容MySQL语法)
云原生架构(存储计算分离)
典型场景
挑战
:
数据需要实时写入和查询
数据写入吞吐大
查询并发高,对查询时延要求严格
解决方案
:
使用MV对明细数据进行聚合
使用Dirty Read满足时效性要求
云原生计算
大数据解决方案
:
Serverless Flink实时写入
大数据存储(CloudFS)+ Iceberg
Serverless Spark
MySQLOracleKafkaIoTBI报表实时大屏数据分析
机器学习
数据集成
数据源管理
跨源查询
数据服务
BMQ/Kafka
业务场景实时风控
数据开发和管理
元数据管理
API服务
Open Search
动态引擎
Ray任务调度
项目和权限管理
作业开发和管理
核心引擎HSAP
资源和调度
多云管理
云原生Operator
痛点
:
大数据架构复杂,使用成本高
传统大数据部署资源使用效率低,运维不够便捷
实时场景多,传统数据开发不能满足实时要求
价值点
:
一站式大数据管理平台,支持实时和离线计算
基于云原生技术部署,高效资源管理和调度
字节跳动深度优化的实时计算链路
你可能感兴趣
字节跳动DataOps落地实践和思考_王洋
信息技术
ArchSummit深圳2023|全球架构师峰会
2023-08-02
2-3 字节跳动一站式数据治理的思考及实践 -王慧祥
信息技术
DataFunSummit2022:数据治理在线峰会
2022-09-15
DDD、BFF 和 API First 在百度企业应⽤服务的实践和思考 -吕航飞
信息技术
ArchSummit北京2022|全球架构师峰会
2022-11-02
Introducing Arctic 开源的流式湖仓服务
网易
2023-03-09
实时湖仓在视频号场景的应用实践
-
2024-12-29