行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

罗海伟：基于OceanBase阿里云DataWorks构建一站式数据集成、开发和数据服务

信息技术 2024-08-23 - OceanBase 徐红金

DataWorks与OceanBase集成方案总结

1. DataWorks平台介绍

DataWorks是阿里云提供的一站式智能化数据开发与治理平台，支持多种大数据引擎（MaxCompute/Hologres/AnalyticDB等），助力企业构建现代数据仓库、数据湖及湖仓融合架构。平台自2009年起发展，沉淀阿里巴巴大数据建设方法论，已服务数万家企业。

产品模块架构

DataWorks包含数据集成、数据开发、数据服务等功能模块，其架构支持异构数据存储、可靠安全的数据同步，并具备弹性扩展能力。

2. DataWorks与OceanBase数据集成原理

批同步原理

DataWorks通过标准SQL方式访问OceanBase，支持全量+增量同步，底层采用物理化同步引擎，确保数据一致性。

流同步原理

基于OceanBase的Binlog日志抽取技术，DataWorks实现实时数据同步，支持高吞吐量数据处理。

日志抽取原理

通过OceanBase的Binlog解析器，DataWorks捕获数据库变更事件，支持自定义过滤规则，降低误拉日志风险。

后续规划

DataWorks将推出流批一体同步引擎，支持更高效的混合负载数据处理。

3. OceanBase数据集成开发流程

数据源配置

支持实例模式、连接串模式等多种配置方式，实现开发/生产环境隔离，支持跨账号跨地域访问。

典型同步场景

OceanBase→云数仓：OLTP数据汇聚至MaxCompute等分析平台
MySQL/MaxCompute→OceanBase：分析型数据回流OceanBase支撑OLAP

数据分析开发

通过ELT工作流构建离线/实时数仓，支持即席分析系统开发。

数据服务开发

提供零代码零运维的API服务创建工具，解决数据应用交付最后一公里问题。

4. OceanBase客户案例

业务挑战

私有化部署导致高人力成本
技术栈分离增加安全风险
大量实例运维压力持续增长

解决方案

通过OceanBase云服务实现开箱即用，降低部署周期
OB 3.0 HTAP引擎优化数据库链路架构
SaaS化复制能力加速建站进程

客户收益

降本增效：运维成本显著降低
技术统一：保持TP+AP栈一致
业务价值：HTAP能力提升在线核对效率

5. 平台价值

DataWorks与OceanBase集成提供全链路数据解决方案，从数据集成到开发服务形成完整闭环，支持企业数字化转型。

基于OceanBase阿里云DataWorks 构建一站式数据集成、开发和数据服务罗海伟阿里云高级技术专家 Contents目录 01DataWorks介绍介绍阿里云DataWorks历史发展、模块架构等 02DataWorksOceanBase数据集成原理介绍DataWorks针对OceanBase的数据集成原理，以及后续规划 03在DataWorks中做OceanBase数据集成、开发示例介绍在DataWorks中，基于OceanBase做数据集成、开发、服务案例演示 DataWorks与数万家企业数字化转型一路同行 DataWorks是一站式智能化数据开发与治理平台，支持MaxCompute/Hologres/AnalyticDB/E-Mapreduce/CDH/CDP等大数据引擎，为企业构建现代数据仓库、数据湖以及湖仓融合数据架构提供数据平台产品解决方案。作为阿里巴巴大数据平台建设者，DataWorks从2009年起不断沉淀阿里巴巴大数据建设方法论并产品化，同时与数万家政务/金融/零售/互联网/能源/制造等阿里云客户携手，助力企业数字化升级。 DataWorks产品模块架构 DataWorks数据集成平台包含功能异构数据存储、可靠、安全、低成本、可弹性扩展的数据同步平台数据集成OceanBase批同步原理数据集成OceanBase流同步原理 OceanBase日志抽取原理 DataWorks数据集成后续规划流批一体同步引擎 DataWorksxOceanBase数据开发流程 DataWorks对OceanBase有全方面的支持 Step1:配置OceanBase数据源基础信息配置和复用数据源记录了数据存储的连接访问信息，是后续数据集成、开发、分析的的前提基础配置多种配置模式和网络环境支持支持实例模式、连接串模式、本账号、跨账号、跨地域等各种配置形式和网络打通环境隔离和安全控制支持开发、生产环境隔离，支持数据源权限安全控制 Step2:配置OceanBase->云数仓同步典型场景：OceanBase中存储面向OLTP数据，数据汇聚到数仓平台（MaxCompute、Hologres等）挖掘数据价值 Step2:配置MySQL/MaxCompute->OceanBase同步典型场景：OceanBase汇总存储分析型数据做OLAP分析；OceanBase存储分享结果数据支撑数据服务和数据应用 Step3:在DataWorks中对OceanBase数据执行分析典型场景：配置和编排ELT数据处理工作流，帮助企业构建离线数仓、实时数仓与即席分析系统 Step4:在DataWorks中开发OceanBase数据服务使用场景：帮助企业统一创建和管理对内、对外的API服务，解决数仓、数据库与数据应用间的“最后一公里” 零代码零运维蚂蚁银行新加坡分行：实现大集群模式的高效运维管理 OceanBase通过灵活的部署模式，以及多租户架构，实现大集群模式的高效运维管理业务挑战客户收益解决方案 •私有化部署导致建站人力投入以及时间成本巨大•TP+AP技术栈分离，增加数据安全风险•大量实例同时带来与日俱增的运维成本 •通过OceanBase云化服务开箱即用减少部署周期以及运维成本消耗。并且通过OB 3.0 HTAP引擎，优化的整体的数据库链路架构，保持技术栈统一 •OceanBaseSaaS化复制能力，加速建站进程•松耦合的分布式架构，无需改变使用习惯，适用不同业务的需求•OceanBase即时分析能力，提高在线核对效率以及准确度，把控资金风险公有云降本增效 HTAP DataWorks全链路大数据开发治理平台钉钉交流群产品官网：https://www.aliyun.com/product/bigdata/ide 产品体验：https://workbench.data.aliyun.com/experience.htm#/ 学习路线：https://developer.aliyun.com/learning/course/81 客户案例：https://www.aliyun.com/activity/bigdata/bigdata-case-studies 谢谢谢谢谢谢

点击免费查看完整报告

罗海伟：基于OceanBase阿里云DataWorks构建一站式数据集成、开发和数据服务

DataWorks与OceanBase集成方案总结

1. DataWorks平台介绍

产品模块架构

2. DataWorks与OceanBase数据集成原理

批同步原理

流同步原理

日志抽取原理

后续规划

3. OceanBase数据集成开发流程

数据源配置

典型同步场景

数据分析开发

数据服务开发

4. OceanBase客户案例

业务挑战

解决方案

客户收益

5. 平台价值

你可能感兴趣

3-1 Apache InLong 一站式海量数据集成框架原理和实践

【机构龙虎榜解读】人工智能+教育+华为鸿蒙，阿里云授权培训认证合作伙伴，推出“纯血”原生鸿蒙开发学科，基于HarmonyOS NEXT版本最新技术及能力设计，涵盖千余个相关知识点，这家公司获净买入

1-3 基于阿里云实时计算 Flink 构建现代化数据流

开发贫困和脆弱性评估的数据集成工具：菲律宾试点倡议的反思（英）

基于历史环境空气质量数据和燃煤火力发电厂排放的分析，以开发决策支持系统

东吴：李和伟-中国化妆品年会-1216新品开发论坛纪要20201216

基于微海绵的凝胶作为一种简单而有价值的策略，用于以受控方式配制和释放他扎罗汀

罗煜辉 - 兴业银行基于 Alluxio 的数据加速缓存应用场景

第七届挑战赛A2-基于风格轮动和集成学习的多因子选股投资策略研究

将数字模型和锥形束计算机断层扫描与金属伪影集成时基于表面的融合方法的准确性