登录
注册
回到首页
AI搜索
发现报告
发现数据
专题报告
研选报告
定制报告
VIP权益
发现大使
发现一下
热门搜索:
新能源车
AIGC
Chatgpt
大模型
新质生产力
低空经济
当前位置:首页
/
行业研究
/
报告详情
/
6-2 字节数据湖平台在实时数仓中的实践
信息技术
2022-07-18
DataFunSummit2022:多维分析架构峰会
心***
AI智能总结
查看更多
实时数仓场景介绍
实时数仓场景
:旨在提高数据处理的时效性和实时性,支持高效的数据分析和决策。
数据湖在实时数仓场景初探
视频元数据
:
时效性
:从天级提升到小时级。
效果
:数据就绪时间提前3.5小时,高峰期资源消耗减少约40%。
近实时数据校验
:
时效性
:从小时级提升到分钟级。
效果
:从根本上提升研发效率及数据质量。
数据湖在实时数仓典型场景实践
实时多维汇总
:
场景描述
:轻度汇总数据实时入湖,下游按需重度聚合。
暴露问题
:写入稳定性差、更新性能差、并发难提升、查询性能差。
解决方案
:
写入稳定性治理
:采用Async Compaction和Compaction Service V1。
高效更新索引
:使用Bucket Index。
请求模型优化
:引入Embedded Timeline Server。
查询性能专项优化
:包括MergeOnRead列裁剪、并行读优化、Combine Engine、Parquet Log Format、读文件系统长尾问题优化。
实时数据分析
:
场景描述
:明细数据直接入湖,支持日志型数据高效入湖和实时数据关联。
技术
:使用NonIndex技术高效入湖。
未来规划
弹性可扩展索引系统
:应对业务数据快速增长。
自适应表优化服务
:提供完全托管的Compaction、Clean和Clustering服务。
元数据服务增强
:支持Hudi schema的增加、删除和修改,支持流批并发写入。
批流一体
:
统一SQL
:实现批流一体SQL,由Flink、Spark、Presto等多引擎协同计算。
统一存储
:基于Hudi的实时数据湖存储。
统一元数据
:提供统一元数据管理。
你可能感兴趣
6-2 StarRocks 的实时数仓之路
钢铁
DataFunSummit2022:现代数据栈技术峰会
2022-11-02
SelectDB实时数仓在智慧港口中的应用实践
信息技术
哪吒科技
2025-01-14
6-2 图网络数据在跟风拍摄中的实践与应用 - 李健伟 快手 生产数分techlead
文化传媒
DataFunSummit2022:数据科学在线峰会
2022-06-13
中通快递基于SelectDB实时数仓的应用实践
信息技术
中通快递
2024-04-25
02-小红书云原生实时数仓的建设与实践-王成
文化传媒
ArchSummit北京2023|全球架构师峰会
2023-06-06