行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

数据洪流中的智能航舵：Oceanus流式湖仓探索，弹性降本

2024-09-12 腾讯棋落

业务痛点和挑战

随着数字化加速，企业对实时数据处理和分析需求日益迫切，传统批处理方式存在时效性差、数据孤岛、扩展性不足等问题，无法满足实时洞察需求。

流计算Oceanus产品概述

流计算Oceanus是基于Apache Flink构建的企业级实时大数据分析平台，具备一站式开发、无缝连接、亚秒延时、低廉成本、安全稳定等特点，适用于实时推荐、实时风控、实时数仓、实时大屏等场景。

湖仓场景现状和挑战

传统Lambda架构存在灵活性低、成本高、Update场景支持不足等问题。

流式湖仓方案

Streaming Iceberg是腾讯自研的基于Iceberg生态的流式湖仓解决方案，底层基于LSM Tree存储引擎，支持高效的主键更新和部分列更新，生成完整changelog记录，允许下游Flink作业进行增量处理。

流式湖仓优势

统一存储，简化架构
灵活的数据访问
实时处理能力强
性能优异
成本低
避免重复存储
打破数据孤岛
兼容Iceberg生态
支持多种查询引擎
高效更新
简化运维

流式湖仓实践

适用行业及场景包括电商、实时用户画像推荐、实时数据大盘、实时课程直播数据分析、实时游戏数据分析、实时出行数据分析等。

电商行业实时订单交易数据分析场景效果：

自动完成小文件合并等治理操作，保证查询性能
ODS层数据基于Streaming Iceberg生成changelog进行流式数据聚合
每一层可通过Doris关联外表进行OLAP分析，或通过DLC/EMR中的Spark/Presto引擎进行离线报表计算，实现数据复用

流式湖仓CDC优化效果：

实现效率更高的At-least-once数据同步模式
性能提升10倍以上

业务成本挑战

资源成本、运维人力投入、时间投入、弹性扩展困难、复杂的运维管理、困难的资源管理。

新型弹性降本方案

首创弹性包年包月方案，优势包括：

支持弹性，灵活度高
低成本
资源弹性扩缩容
集群及平台特性：
- 自动扩缩容
- 自研服务器
- 细粒度资源
- 弹性伸缩
- 作业级别自动/自定义调优
- 多规格细粒度资源配置
专家资源及作业优化：
- 专家作业优化
- 算子级别资源配置支持单个算子的CPU、内存、并行度、状态时间等配置，支持SLOT配置
一站式开发运维：
- 0成本运维
- 运行时监控
- 智能告警
- 异常诊断
- 日志
- 快捷回滚

——Oceanus流式湖仓探索，弹性降本方案李哲主讲人：业务痛点和挑战 Oceanus，抓住数据转瞬即逝的价值。 ——实时计算平台，适用于对时效性要求高的实时计算场景，如实时报表、实时推荐、实时数仓等。近年来，随着数字化的加速发展，企业对数据的实时处理和分析需求日益迫切。从电商平台的个性化推荐，到金融机构的实时风控，再到工业企业的设备预测性维护，实时数据已经成为驱动业务创新、提升竞争力的核心要素。然而，传统的批处理方式往往存在时效性差、数据孤岛、难以扩展等问题，无法满足现代企业对实时洞察的迫切需求。流计算Oceanus产品概述产品概述流计算Oceanus是大数据产品生态体系的实时化分析利器，是基于Apache Flink构建的具备一站开发、无缝连接、亚秒延时、低廉成本、安全稳定等特点的企业级实时大数据分析平台。流计算Oceanus以实现企业数据价值最大化为目标，加速企业实时化数字化的建设进程。您可以使用“流计算Oceanus”实现各种实时场景，如实时推荐、实时风控、实时数仓、实时大屏等。目录流式湖仓方案架构介绍湖仓场景现状和挑战流式湖仓应用场景新型弹性降本方案湖仓场景现状和挑战传统的Lambda架构的不足Data Source 灵活性低成本高 Update场景支持不足 Streaming Iceberg 腾讯云流计算oceanus流式湖仓 ⚫Streaming Iceberg是腾讯自研的基于Iceberg生态的流式湖仓解决方案。它底层基于LSM Tree存储引擎进行文件的管理，从而可以高效的支持主键更新的场景。 ⚫支持对单行数据的部分列进行更新，可以高效的实现实时表打宽等需求。 ⚫在数据更新的过程中，可以产生反映数据变更的完整changlog记录，从而允许下游的Flink作业继续进行增量的处理来生成下一层的数据。流式湖仓和优势03 流式湖仓优势统一存储，简化架构灵活的数据访问实时处理能力强性能优异成本低 ⚫大表优化：对大表的数据提交流程进行了优化，提高了数据写入速度。⚫压缩编码和分区优化：采用高效的压缩编码格式和分区策略，减少存储空间，提高查询性能。避免重复存储：传统的Lambda架构中，离线和实时数据往往需要分别存储，导致数据冗余。Streaming Iceberg通过统一的存储层，避免了这种冗余，降低了存储成本。 ⚫完整changelog：生成完整的changelog，使得Flink等流处理引擎能够对数据进行增量处理 ⚫打破数据孤岛：StreamingIceberg打破了传统Lambda架构中数据存储的壁垒，避免了数据重复存储和计算逻辑的重复开发。 ⚫兼容Iceberg生态：Streaming Iceberg与Iceberg生态完全兼容，用户可以无缝迁移现有的Iceberg查询作业。⚫支持多种查询引擎：支持Spark SQL、Trino/Presto等多种查询引擎，满足不同用户的查询需求。 ⚫高效更新：基于LSM Tree存储引擎，支持高效的主键更新和部分列更新 ⚫简化运维：通过统一的数据存储和计算引擎，简化了系统的运维管理流式湖仓实践04 流式湖仓适用行业及场景实时用户画像推荐场景、实时数据大盘场景电商实时课程直播数据分析场景实时游戏数据分析场景实时出行数据分析场景流式湖仓实践效果电商行业实时订单交易数据分析场景 ⚫自动完成小文件合并等治理操作，保证了查询的性能。 ⚫ODS层的数据，基于StreamingIceberg生成changelog的能力，进行流式数据聚合。 ⚫对于流式湖仓中的每一层，都可以通过Doris关联外表的方式进行OLAP分析，或者通过DLC / EMR中的Spark / Presto引擎进行离线报表计算，实现数据复用。流式湖仓实践效果流式湖仓CDC优化性能提升10倍以上！ ⚫实现了效率更高的At-least-once数据同步模式，通过目标端的upsert能力来保证端到端的一致性⚫在存量同步阶段可以带来10倍以上的性能提升。业务在成本方面的挑战资源成本、运维人力投入、时间投入弹性扩展困难复杂的运维管理困难的资源管理 Flink平台的运维管理工作繁琐复杂，包括资源监控、作业告警、日志探索、作业事件、性能优化等，需要专业技术人员进行操作和维护。难以根据业务负载进行弹性扩展，无法满足业务快速增长的需求。 ⚫用户通常需要大量时间给作业调优，实现精细化资源管理⚫弹性作业会导致资源浪费。新型弹性降本方案06 首创弹性包年包月方案优势支持弹性，灵活度高01 ⚫支持弹性伸缩:配合作业扩缩容可以灵活利用资源。⚫支持混合部署:用户可以在一个集群内使用包年包月资源和按量付费资源。避免多集群管理，作业不同集群多副本管理带来麻烦。低成本弹性包年包月集群相比传统计费模式，大约可以节省两成的资源成本。资源弹性扩缩容集群弹性伸缩+作业级自动扩缩容+细粒度资源，降低约20%资源成本集群及平台特性自动扩缩容自研服务器作业级自动扩缩容，按照资源使用率自动调节作业资源，提高资源利用率。业内领先的自研服务器技术，降低服务器成本。细粒度资源弹性伸缩作业级别自动/自定义调优多规格细粒度资源配置资源池弹性伸缩，支持按量付费，非业务峰值时自动释放资源。支持细粒度的计算资源规格设置（0.25 0.5 1 2 4 ……）,充分利用cpu资源。专家资源及作业优化专家作业优化算子级别资源配置支持单个算子的CPU、内存、并行度、状态时间等配置，支持SLOT配置 Flink专家团队优化，提供代码优化和资源层面的优化。一站式开发运维 0成本运维运行时监控 ⚫指标监控：70+项指标，全方位监控⚫事件监控：作业异常事件及解决方案智能告警 ⚫指标告警：70+项指标告警，支持AI动态阈值告警⚫事件告警：支持根据异常事件告警异常诊断 ⚫一键快捷诊断⚫黑窗诊断日志支持实例、时间、关键字检索快捷回滚支持快照管理，轻松从快照恢复作业

点击免费查看完整报告

数据洪流中的智能航舵：Oceanus流式湖仓探索，弹性降本

业务痛点和挑战

流计算Oceanus产品概述

目录

湖仓场景现状和挑战

流式湖仓方案

流式湖仓优势

流式湖仓实践

业务成本挑战

新型弹性降本方案

你可能感兴趣

Introducing Arctic 开源的流式湖仓服务

1-4 字节跳动基于 Doris 的数据湖仓探索

基于Hudi+Flink打造流式数据湖的落地实践

Arctic 流式湖仓发布

智能网联汽车：在迅猛的数据洪流中抢占先机

6-2 字节数据湖平台在实时数仓中的实践

虎牙-郑健彦-智能弹性在虎牙降本增效上的探索与实践

美团-宋洪鑫-高效保障数仓一致性：美团数仓智能构建与治理平台的探索

6-4 字节跳动流式数仓和实时服务分析的思考和实践

在最近的EM弹性中探索进位-INR提供最有吸引力的真实进位/交易量概况