重塑数据生产力: DataOps能力体系建设与实践 尹正中国信息通信研究院云计算与大数据研究所大数据与区块链部 数据资产管理研究员,,目前主要从事DataOps,数据治理,数据资产管理的理论研究与标准制定等工作。牵头多项数据领域的标准、白皮书、研究报告编制,负责多家行业头部企业的相关领域评估与咨询工作。 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 Content 目录 DataOps发展历程简介 01 项目描述,单击此处添加简短说明 02 DataOps能力标准框架介绍 项目描述,单击此处添加简短说明 03 DataOps企业实践与发展建议 项目描述,单击此处添加简短说明 04 DataOps生态构建 项目描述,单击此处添加简短说明 01 DataOps发展历程简介 项目描述,单击此处添加简短说明 国家:实施国家大数据战略加快建设数字中国 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 要构建以数据为关键要素的数字经济 ——习近平总书记2017年12月8日在十九届中央政治局第二次集体学习时提出 《中共中央国务院关于构建数据基础制度更好发挥数据要素作用的意见》 ——2022年6月22日中央深改委第26次会议审议通过 数据产权制度|流通交易制度|收益分配制度|安全治理制度 提高数据要素供给数量和质量,充分保障数据处理者使用数据和获得收益的权利充分实现数据要素价值、促进全体人民共享数字经济发展红利 企业:数据驱动是数字化转型的核心 数据驱动型企业 将赢得数字化竞争优势 实时 分析 0102 全面 用数随时 数据驱动型可用 06企业的特征03 闭环 运营柔性 管控 05内外04 贯通 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 数据平台建设和数据资产管理能力提升,激发了数据需求,数据开发能力与需求之间的矛盾日益突出 3数据应用开发 数据管理意识普及,2022年1024家完成DCMM贯标,数据资产管理能力加速提升 2DAMADCMM…… 数据资产管理 数据平台建设先行,具备相对较好基础 1数仓大数据平台数据湖数据中台…… 数据平台建设 数据驱动型企业必备的三个核心能力 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 需求响应慢 人工依赖度高 •过度依赖人工经验 •过度依赖人工决策 团队协作难 •工具系统多 •团队链路长 •沟通成本高 •数据需求提出量暴增 •需求提出的质量低 开发效能不足 •数据开发运营运维流程浪费严重 •数据工作流割裂 管理有缺失 •效能管理缺失 •DT一体化管理缺失 数字化转型陷入怪圈 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 DataOops 传统数据开发范式遇到的挑战推动数据开发应用模式创新变革,亟需新的实践方法论来推动工具、流程和人员等资源的优化重组,提升数据产品供给能力。 形成敏捷数据产品开发流程 •敏捷迭代,快速响应需求变化 •自助服务,主动利用数据资产 打造开发治理一体化流水线 •前置数据质量管控 •治理过程融入开发流程 •打造自动化测试流程,及时处理问题 构建高效的跨域协同机制 •跨部门协作,打造协同型团队 •建立良好沟通机制,塑造协同文化 •借助技术赋能,善用协同工具 建立精细化的数据运营体系 •全链路度量与反馈 •减少人力成本 •降低运营成本 现代化数据开发范式亟待形成 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 数据研发运营一体化(DataOps):是数据开发的新范 式,将敏捷、精益等理念融入数据开发过程,通过对数据相关人员、工具和流程的重新组织,打破协作壁垒,构建集开发、治理、运营于一体的自动化数据流水线,不断提高数据产品交付效率与质量,实现高质量数字化发展。 DataOps的发展 DataOps的概念最早在2014年由国外学者提出,随后业界逐步对其内涵进行补充。在2018年DataOps正式被纳入Gartner的数据管理技术成熟度曲线当中,由此进入了国际的视野当中。2022年中国信通院正式牵头启动了DataOps的标准建设工作,以此为基础推动我国大数据产业的多元化发展,助力企业完成数智化蜕变。 2022 自2018年被Gartner纳入到数据管理技术成熟度曲线以来,DataOps热度逐年上升,在21年处在一个从萌芽期到爆发期的关键过度阶段,预示着未来2-5年内DataOps 将得到广泛的实践应用。 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 DataOps借鉴了许多DevOps中优秀的的理念和方法,对DevOps有着深入实践的组织也更容易实现DataOps的应用。 DataOps虽然源于DevOps,但由于数据项目的场景更为复杂。在实践DataOps的过程中,也不能仅仅将DevOps用在数据开发当中。 相似点 敏捷开发 业务价值导向CICD 自动化测试重用复用自动化 差异点 人员 工程师 软件开发人员 工具 DataOpsV.SDevOps 工程师 数据科学家数据分析师 DataOps DevOps 工具链还在构建当中 自动化初期阶段 工具链成熟自动化程度高 编排 轻编排 重编排 数据管道编排 数据分析编排 重编排 数据管道编排数据分析编排 轻编排 编排 数据开发数据分析数据管理 软件开发 过程 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 DataOps的复杂性 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 片来作为DataOps环境的关键组件的简化图。 图片来源:EckersonGroup 数据在技术侧包括了至少产生、集成、加工、分析使用、退役等过程,管理侧至少包括了标准、质量、模型、元数据、安全等方面。如此多的环节包括了更多的组件和过程,那么定义DataOps是非常困难的。引用一张图 OneforALL 采购大型软件、云、数据专业产品提供商 •微软 •亚马逊 •Oracle •Infoworks ALLforOne 用编排和监控工具将开源的组件和商业组件结合在一起。Confluence AirflowPulsarTalend DataOps的收益 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 数据准备效率>10倍 研发效率>50倍 典型全量案例回归时 间缩短>15倍 某国有大型商业银行,借鉴DataOps理念 字段标准化率达到80%,字段及指标的安全等级已完成100%设置 相同需求对应指标数量缩减 48.7% 某业务模型复用度从2.4%提升到 9.6%,下线3.4W个模型 规则覆盖率达到65%,单个任务的配置效率提升约70% 严选质量覆盖率提升100% 某集团持续优化DataOps体系 GE降低HIVE成本40% (4500万美元/年审计成本) TrueDigital(泰国远程电话公司)提升平台表现力2倍 PhonePe(沃尔玛手机支付app) 0Sev-1问题 SEV1事故:每分钟损失近百万美元的宕机事故 外企,探索DataOps的实践价值 02 DataOps能力标准框架介绍 项目描述,单击此处添加简短说明 DataOps标准建设意义 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 DataOps标准的建设意义在于:一是确定Dataops概念意义、明确DataOps实施流程、把握企业发展阶段和方向。二是通过标准引领的方式,引导企业快速接纳DataOps文化,尽快完成数智化转型,释放数据要素价值。 DataOps标准框架 业务研发管理 需求 组织管理 交付管理 数据运维持续运营业务 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 价值 系统安全 工具管控 DataOps标准体系 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 组织 流程 工具 DataOps在组织、流程和工具三个方面对企业产生影响。要求组织内人员更深入的吸收数据文化、加强协作,重构数据工作流程,加强一体化设计的数据开发、治理、运营运维、应用的平台优化 数据思维纳入组织通识教育 专职于效能与协同的岗位 决策层的战略支持 标准化数据工作程序 从面相交付到面相业务 降低个人依赖 使用者不仅限于 技术人员 强化一体化设计能力 持续优化 DataOps如何影响组织 DataOps是一场由业务主导,驱动数据变革的革命。 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 DataOps工作计划 DataOps工作组于2022年正式成立,已初步完成DataOps能力标准框架与研发管理的标准编制。 2023年将陆续发布《DataOps实践指南1.0》以及系列标准中的系统工具、交付管理和运维管理部分。持续开展相关评估评测工作,并按需举办专题的峰会及论坛活动。 技术标准 以评促建 筹备国际标准 数据运维标准 交付管理标准 系统工具标准 生态共建 创新实验室 谷雨社区 谷雨计划 产业研究 研究报告 能力图谱 案例汇编 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 DataOps研发管理评估情况 首批:2022年11月18日~2023年4月20日 第二批:现已启动 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 03 DataOps企业实践与发展建议 项目描述,单击此处添加简短说明 DataOps实践情况 实践上看,欧美国家的一些公司在DataOps的探索和发展上要早于中国。现阶段,我国有更广阔的发展空间和挖掘潜力,在制度保障、人才培养、技术储备发展上都有着长期优势。 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 DataOps实践情况——A企业 数据生产力 广义上:通过使用数据带来组织生产力提升。 狭义上:企业员工使用平台工具采集数据、处理数据,数据分析以及管理数据的能力。 一个愿景 人人用数据,时时用数据 三个方法论 DataOps、DataFusion、DataProduct DataOps1.0:数据发布流水线 DataOps ContinuousIntegration ContinuousDelivery ContinuousDeployment 编码 编排 测试 代码审查 发布审核 部署上线 •数据开发IDE •多版本管理(含调度) •UDFStudio •任务模板(组件库) •依赖调度 •智能任务依赖推荐 •参数组 •资源组 •数据比对 •数据沙箱 •自动化回归 •数据形态探查 •SQLScan •CodeReivew •发布包 •全链路影响分析 •自定义审核流程 •基于优先级资源调度 •智能诊断 •基线预警 •SLA DataOps实践情况——A企业 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 效能工具 DataOps实践情况——A企业 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 DataOps2.0:数据开发治理一体化 稽核规则定义稽核规则推荐 治理套件 数据安全规则 开发套件 字段类型、分类、数据格式规范 指标、数据元、 分层分类 字段类型映射规范(快速建表) 元数据管理 数据处理规范 (格 字段映射、按式处理) 数据质量 安全中心 技术元数据 管理元数据 业务元数据 质量规则 资产等级 安全等级安全规则 全链路血缘 任务运维 元模型、词根数据元、数据字典 资源分类 原子指标派