基于OceanBase阿里云DataWorks 构建一站式数据集成、开发和数据服务 罗海伟 阿里云高级技术专家 目录 Contents 01DataWorks介绍 介绍阿里云DataWorks历史发展、模块架构等 02DataWorksOceanBase数据集成原理 介绍DataWorks针对OceanBase的数据集成原理,以及后续规划 03在DataWorks中做OceanBase数据集成、开发示例 介绍在DataWorks中,基于OceanBase做数据集成、开发、服务案例演示 DataWorks与数万家企业数字化转型一路同行 DataWorks是一站式智能化数据开发与治理平台,支持MaxCompute/Hologres/AnalyticDB/E-Mapreduce/CDH/CDP等大数据引擎,为企业构建现代数据仓库、数据湖以及湖仓融合数据架构提供数据平台产品解决方案。 作为阿里巴巴大数据平台建设者,DataWorks从2009年起不断沉淀阿里巴巴大数据建设方法论并产品化,同时与数万家政务/金融/零售/互联网/能源/制造等阿里云客户携手,助力企业数字化升级。 15年 产品发展历史 5万+ 阿里内部月活用户数 1万+ 云上企业数 1700万+ 云上日调度任务实例数 600万+ 累计为用户发现和治理的问题数 非最新数据 https://help.aliyun.com/zh/dataworks/product-overview/what-is-dataworks DataWorks产品模块架构 业务场景 政务云/城市大脑行业数据中台用户增长/分析/营销 智能搜/推/广 车联网/智能制造 数据报表/大屏 数据分析与应用 开放平台 开放接口 开放消息 开放数据 扩展点与扩展程序 自助分析 数据分析 电子表格 Notebook 低代码化数据API构建 数据服务 服务编排 API网关 数据治理中心 检查器(事前预防) 问题处理方案 治理项(事后发现) 健康分评估模型 数据治理 数据质量 质量规则模板智能规则推荐 动态规则阈值离线表、消息通 数据资产地图 元数据采集 全链路数据血缘 数据目录和检索 影响分析 数据安全 数据权限管理数据分级分类 隐私数据保护风险预警访问审计 数仓规划 维度建模 规范设计 数据标准 数据指标 ER建模(Datablau) 数据开发 离线/实时/交互式分析/AI一体化集成开发环境 任务统一调度任务运维和监控 数据集成 全量同步 增量同步 实时同步 整库迁移 分库分表同步 数据转换 计算存储引擎 阿里自研大数据计算服务(MaxCompute)交互式分析引擎(Hologres/AnalyticDB)开源数据湖计算平台(E-MapReduce) 其他数据平台等 (CDH/CDP/StarRocks/OceanBase…) 安全控制 运维监控 DataWorks数据集成平台包含功能 异构数据存储、可靠、安全、低成本、可弹性扩展的数据同步平台 离线/实时全覆盖 繁多异构数据源 支持复杂网络 同步解决方案 10PB+/每日数据同步 数据集成OceanBase批同步原理 基于数据库JDBC协议或数据源SDK进行读写 job ReaderBufferPoolWriter task Writer split task1task2task3task4 Reader BufferPool Reader BufferPool ReaderWriter Writer Reader Writer ··· 4 3 2 1 ……BufferPool thread BufferPool thread … selectmin(splitPk),max(splitPk)fromtableselectc1,c2,…fromtablewheresplitPk>=min1andsplitPk<max1insertintotable(c1,c2,…)values(v1,v2,…),(x1,x2,…),… OceanBase源端 DataX/DataXCDC OceanBase目标端 数据集成OceanBase流同步原理 OceanBase日志抽取原理 日志增量 OBServer Clog OBLogProxy LogReader Clog OMS 元数据消息队列 BinLog/Clog读取BinaryData 消息订阅BlobJSON 消息分解 INSERTUPDATEDELETEALERT … 转化处理 转化处理 INSERT … 转化处理 INSERT 关系型数据库 大数据 实时消息流 OceanBase日志抽取原理 DataWorks数据集成后续规划 开源生态 极致的性能和成本 •资源按需获取弹性扩 缩容,支持分布式海量数据同步 •支持DML/DDL/HeartBeat等全事件流的解析及同步 全事件流同步 流批一体同步引擎 •维护一套框架,同一套技术栈支持流和批同步,提高研发效能 •有丰富的开源生态,能够复用和集成社区丰富的Connector DataWorksxOceanBase数据开发流程 DataWorks对OceanBase有全方面的支持 •关系型数据库 •文件存储 •大数据存储 •消息队列 数据源 数据集成 •异构数据源的打通 •齐备的网络解决方案 •数据同步 •数据存储集合 数据仓库 在线数据库 •数据结构统一 •面向数据查询 •向下对接数据源 •向上对接数据应用 数据服务 数据应用 •报表 •大屏 •应用 •··· •面向数据分析 Step1:配置OceanBase数据源 基础信息配置和复用 数据源记录了数据存储的连接访问信息,是后续数据集成、开发、分析的的前提基础配置 多种配置模式和网络环境支持 支持实例模式、连接串模式、本账号、跨账号、跨地域等各种配置形式和网络打通 环境隔离和安全控制 支持开发、生产环境隔离,支持数据源权限安全控制 Step2:配置OceanBase->云数仓同步 典型场景:OceanBase中存储面向OLTP数据,数据汇聚到数仓平台(MaxCompute、Hologres等)挖掘数据价值 整库实时全增量 结构迁移、全量初始化、增量实时同步一键完成 离线批同步 支持周期离线同步,通道写出范围广泛 低代码、可运维监控 简单配置,简单运维 一键实时同步至MaxCompute:https://help.aliyun.com/document_detail/175676.html一键实时同步至Hologres:https://help.aliyun.com/document_detail/171766.html Step2:配置MySQL/MaxCompute->OceanBase同步 典型场景:OceanBase汇总存储分析型数据做OLAP分析;OceanBase存储分享结果数据支撑数据服务和数据应用 快速完成业务数据上OceanBase https://help.aliyun.com/zh/dataworks/user-guide/overview-of-the-solution-based-synchronization-feature Step3:在DataWorks中对OceanBase数据执行分析 典型场景:配置和编排ELT数据处理工作流,帮助企业构建离线数仓、实时数仓与即席分析系统 智能SQLIDE与可视化工作流编排 AI加持SQL编辑器,智能提示,拖拽式构建数据工作流 稳定高效的调度系统 自动解析任务依赖,千万级日调度能力,细粒度调度周期控制 智能监控与运维诊断 围绕任务运行的全链路给出诊断建议,快速定位原因 Step4:在DataWorks中开发OceanBase数据服务 使用场景:帮助企业统一创建和管理对内、对外的API服务,解决数仓、数据库与数据应用间的“最后一公里” 零代码 零运维 多数据源 弹性扩展 蚂蚁银行新加坡分行:实现大集群模式的高效运维管理 OceanBase通过灵活的部署模式,以及多租户架构,实现大集群模式的高效运维管理 业务挑战 •私有化部署导致建站人力投入以及时间成本巨大 •TP+AP技术栈分离,增加数据安全风险 •大量实例同时带来与日俱增的运维成本 客户收益 •OceanBaseSaaS化复制能力,加速建站进程 •松耦合的分布式架构,无需改变使用习惯,适用不同业务的需求 •OceanBase即时分析能力,提高在线核对效率以及准确度,把控资金风险 解决方案 •通过OceanBase云化服务开箱即用减少部署周期以及运维成本消耗。并且通过OB3.0HTAP引擎,优化的整体的数据库链路架构,保持技术栈统一 离线分析 数据回流 MaxCompute 联机交易 APP 小时增量/增量累计 实时同步 在线分析 DATAWORKS OceanBase3.0 公有云降本增效 HTAP 钉钉交流群 产品官网:https://www.aliyun.com/product/bigdata/ide 产品体验:https://workbench.data.aliyun.com/experience.htm#/ 学习路线:https://developer.aliyun.com/learning/course/81 客户案例:https://www.aliyun.com/activity/bigdata/bigdata-case-studies DataWorks全链路大数据开发治理平台 谢谢 谢谢 谢谢