D 大数据技术标准推进委员会 BigDetaTechnokogrsrdStandsrdCommittee DATAOPS DataOps实践指南 (2.0) CCSATC6O1大数据技术标准推进委员会 2024年5月 版权声明 本报告版权属于CCSATC601大数据技术标准推进委员会,并受法律保护。转载、摘编或 利用其他方式使用本报告文字或者观点的,应注明来源:CCSATC601大数据技术标准推进 委员会”。违反上述声明者,本推委会将追究其相关法律责任。 编制说明 本指南的撰写得到了DataOps领域多家企业与专家的支持和帮助,主要参与单位与人员 如下。 参编单位:大数据技术标准推进委员会、中国工商银行股份有限公司、联通数字科技有限 公司、中国移动通信集团浙江有限公司、福建新大陆软件工程有限公司、平安银行股份有限公 司、光大证券股份有限公司、中国农业银行研发中心、广州信安数据有限公司、中国联合网络 通信有限公司软件研究院、腾讯科技有限公司、杭州雅拓信息技术有限公司、海南数造科技有 限公司、云赛智联股份有限公司、海亮教育科技服务集团、华为终端有限公司、一汽大众汽车 有限公司、中信建投证券股份有限公司。 参编人员:尹正、田明慧、王妙琼、林木森、姜春宇、阀鑫禹、李雨霏、马闻达、周京晶、张娇 婷、刘思达、周圣文、张一鸣、郭彦美、腰云、李家欣、徐明、陈红、谭晟中、主项南、刘雷、主兴杰 陈永刚、岑伟迪、王漂、叶潇、巫雪辉、朱坚、康志平、李乌英嘎、朱震宇、朱才才、梁鸿超、唐守 忠、朱红伟、杜少华、张然、王全胜、周小敏、叶剑、张承琪、高亚兵、谭杰轩、陈韬、王有兵、王瀚、 鲍立飞、林吉昌、陈正伟、周海涛、徐松林、项灵刚、谭立何、马亚东、余斌、张政勇、林啸鸣、张春 雷、姜鹅、徐聪颖、张文翔、高宇航、李可、许哲, 前言 数据驱动时代,业务需求快速变化,数据处理流程纷繁复杂,企业必须处理好旺盛数据需 求与数据生产力不足之间的矛盾,革新数据开发流程,加大数据供给力度,从而更好地响应需 求、赋能业务发展。人人用数的场景下,传统数据开发范式开始出现效率瓶颈,需要引入敏捷 协作、精益等新的理念以寻求变革。DataOps是一种新的数据开发模式,通过构建高效协同机 制,建立精细化数据运营体系,打造规范化、一体化的数据开发流程,实现数据产品高质量与 高效率地交付。DataOps体系的建设能够充分释放企业数据价值,有助于构建数据驱动型组 织,最终提升企业的竞争力和业务效率。 当前,国内处于DataOps实践的快速发展阶段,其概念和实践方法论初具雏形,仍需进一 步引导企业进行实践。本实践指南在1.0的基础上进行大量选代,旨在总结各行业最佳实践, 提炼核心理论框架,推动DataOps理念的广泛应用,加速数据驱动型企业的能力建设。指南涵 盖了五部分内容,第一章节主要闸述DataOps的概念与价值内涵,第二章节重点介绍了Data Ops能力框架要求,第三章节从实践模式、文化、组织、流程等维度讨论了DataOps实践路径 和核心要点,第四章主要探讨了DataOps实践难点和应对策略,第五章对DataOps的发展进 行展望。 悬请广大读者不客指正。 编制工作组联系方式:田明慧tianminghui@caict.ac.cn 目录Contents 版权声明编制说明前言目录 03 DataOps实践初探 15 图目录 (一)敏捷数据开发取得稳健成效,先行企业特征各异 15 表目录 (二)文化渗透促进数据深度应用,数据价值逐步释放 16 (三)组织变革促进协同机制构建,业数合作更加紧密 16 (四)数据研发治理流程初步搭建,质量管控初见成效 17 0104 概述 01 Dataops实施典型误区 (一)DataOps概念定义 01 (一)言目跟风,没有“量体裁衣” (二)DataOps价值内涵 01 (二)决策机制模糊,导致资源浪费或投入不足(三)过度依赖技术解决所有问题 (四)追求短期收益 18 18 19 20 21 0205 DataOps能力框架解读04DataOps未来展望22 (一)DataOps能力模型04(一)数据流程可观测22 (二)DataOps核心环节05(二)数据工程智能化22 (三)DataOps实践保障60(三)数据价值精准量化23 图目录 图1DataOps能力模型框架04 图2DataOps数据流水线框架05 图3DataOps保障措施框架60 表目录 表1DataOps数据组织vs.传统数据组织11 表2传统数据治理团队vs.DataOps数据治理团队12 表3DataOps典型协同模式举例13 DataOps概念定义 Data0ps实践指雨2.0 一、概述 数据驱动的目标是通过数据分析和应用,实现业务的持续优化和创新,提升企业的竞争 力。面对外部快速变化的业务环境,企业内部必须处理好复杂的数据处理流程,解决数据生产 力的不足,快速响应业务需求、赋能业务决策。本章从DataOps的概念定义出发,阐述Data Ops的四大价值内涵,明确DataOps作为一种新的数据开发范式,如何在敏捷开发、跨域协 数据质量,从而快速释放数据生产力。 (一) 基于对我国大数据产业发展特征的研究以及对企业发展情况的调研,为了更好地引导企 业安全、高效、高质量释放数据要素价值,重构数据生产力,我们从打造高效用数流水线,构建 灵活保障机制的角度提出如下定义: 数据研发运营一体化(DataOpS)是数据开发的新范式,将敏捷、精益等理融入数据开 发过程,通过对数据相关人员、工具和流程的重新组织,打破协作壁垒,构建集开发、治理、运 营于一体的自动化数据流水线,不断提高数据产品交付效率与质量,实现高质量数字化发展。 (二)[ DataOps价值内涵 1.形成敏捷数据产品开发流程 数捷送代,快速响应需求变化。基于数捷开发方法,可以实现在整个数据处理流程中使用 自动化工具和技术来实现快速、可靠和高效的数据交付。数捷开发方法将数据处理流程划分 为多个小部分,并在每个选代周期中完成一部分数据处理任务,从而实现提速数据交付的目 自助服务,主动利用数据资产。随着企业数据文化氛围的形成,员工数据能力的不断提 升,数据需求方可以主动利用自助分析平台进行数据指标、报表、驾驶舱等任务的开发,快速 满足自身需求。自助分析平台需要提供完备的数据资产目录、低门槛的功能组件和严格的数 据访问控制及数据安全管理。 企业在数据生产端通过敏捷开发、自动化工具等方法和技术提升交付效率,在数据消费 端利用自助服务的形式支撑数据消费者自主地获取和处理数据,而不需要等待数据团队的支 持和协助,在两端共同的作用下加速数据的交付。 01 DataOp5实踪指南2.0 2.构建高效的跨域协同机制 促进跨部协作,打造协同型团队。根据业务需求,组建跨职能的复合型团队,数据开发 团队通过与数据消费者和业务团队的合作,可以更好地了解他们的需求和痛点,为他们提供 史好的数据服务和支持。通过与团队的合作,可以史好地了解系统架构和技术栈,为数据处 理和数据集成提供更好的支持。一些数据驱动型企业都设置了类似“数据BP”的岗位,数据人 员下沉到一线的业务团队中,与业务伙伴合作以实现数据需求,共同为业务的增长负责。 建立良好沟通机制,塑造协同文化。通过建立良好的沟通机制,数据团队可以更好地沟通 和协作,及时发现和解决问题。利用邮件、即时通讯工具、项目管理等工具建立沟通渠道,通过 短会等机制养成高效沟通习债,借助内部WIKI、共享文档等工具沉淀共享知识和经验。 借助技术赋能,善用协同工具。采用团队协作工具,数据团队可以更好地协同工作,提高 工作效率和沟通效率。包括但不限于现代化的项目管理工具、协同编辑工具、在线会议工具等。 企业可以通过组建协同型团队,建立协同保障机制并借助协同工具来共同保障数据团队 开展协同工作。 3.打造研发治理一体化流水线 重构研发治理一体化流程,前置数据质量管控。对数据研发运营管理全生命周期的客个 工作环节进行梳理,厘清数据质量、数据标准、数据安全等工作在研发环节中的位置,将数据 治理工作融入到研发运营管理的流水线中,形成“先设计、后开发、先标准、后建模"的模式,在 研发阶段对数据的质量和安全等问题进行有效管控。某互联网企业将整个开发治理流程分为 四个阶段,分别是需求阶段、设计阶段、开发阶段以及交付阶段。明确各阶段中研发与治理的 关系与责任,将数据治理的过程前置到数据开发环节,确保生产出来的数据能够符合标准和 规范。 打造自动化测试流水线,及时发现、处理数据质量问题。通过使用测试工具进行自动化测 试,来避免人工测试过程中的错误和疏漏,提升测试效率。将自动化测试融入持续集成和持续 交付流程中,确保每次修改和更新都经过了测试,以保证数据流水线的稳定性和质量。最后, 实时监控数据流水线的运行状态,发现问题并及时反馈给研发团队,确保问题能够快速解决。 与传统的先投产后治理的研发治理模式相比,数据研发治理一体化模式能够在研发阶段 对数据治理问题进行管控和介入,而自动化测试能力能够进一步对数据质量进行检查,提升 交付质量的同时也增进了数据研发团队与数据治理团队的协同效率。 02 Data0ps实践指雨2.0 4.建立精细化的数据运营体系 引入工具,减少人力成本。通过自动化工具、流程和自服务能力来提升企业的人员工作效率,减少重复性和低效率的工作,降低综合人力成本,让数据科学家能够专注于更高价值的工 作。 构建流程,降低运营成本。通过自动化运维和数据全链路监控等流程,来及时发现并反馈 效能、资源以及质量等方面的问题,降低企业的运营成本,提高运营运维效率和数据流水线的 可靠性。这样可以让企业更加聚焦于业务创新,提高企业竞争力和盈利能力。 构建数据全景图,及时发现数据链路问题。数据可观测性是一种极其重要的数据管理手段,它不仅能够帮助组织充分了解其系统中数据的运行状况,而且可以在数据出现故障时及时提醒团队并降低其影响范围。数据可观测性的实现需要通过对数据链路的全面分析和上下文的数据可见性,才能有效地监控和维护整个数据生态系统。通过建立高质量的数据流水线 和监控机制,数据团队可以实时监测和分析关键数据资产的健康状况,以便在出现问题时及 时发现和处理。 某科技集团基于系统工具支持企业全球数据平台智能化运营,利用智能化运营体系指标 对开发质量、数据作业、平台稳定性、数据安全、数据资产以及平台资源进行自动化的监控、分 析与提升,进而改善开发效率、避免合规风险、提升资源利用率。 总体而言,企业通过精益化管理在不牺性数据交付效率的情况下,将数据流水线中的浪费情况降至最低。 DataOp5实疏指南2.0 二、DataOps能力框架解读 2022年起,中国通信标准化协会大数据技术标准推进委员会牵头成立了DataOps工作 组,集合了金融、通信、互联网、汽车、能源等行业✁数据专家,通过广泛地调研和研讨,共同提 出了DataOps能力框架,并在国际电信联盟(ITU)、中国通信标准化协会(CCSA)立项《Data Ops能力成熟度模型》系列标准。依托系列标准,企业能够构✁自身DataOps体系,开展相关 实践工作。 DataOps能力模型 DataOps能力模型围绕数据开发流水线,从业务需求出发,以创造业务价值为目标,形成 “4+3"✁能力框架,即4个核心环节和3项实践保障。如图1,数据开发流水线能够划分为4个 环节,包括数据✁研发管理、交付管理、数据运维和价值运营,就像大工业化时代✁生产流水 线一样,保障