您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[大数据技术标准推进委员会]:2023 DataOps实践指南(1.0) - 发现报告
当前位置:首页/行业研究/报告详情/

2023 DataOps实践指南(1.0)

2023 DataOps实践指南(1.0)

委员会 大数据技术标准推进 术标准推进委员会 大数据技术标准推进委员会 大数据 权本报告版权属于CCSATC601大数据技术 版 明或利用其他方式使用本报告文字或者观点的, 声标准推进委员会,并受法律保护。转载、摘编 大数据技术标准推进委员会 应注明“来源:CCSATC601大数据技术标准推进委员会”。违反上述声明者,将追究其相关法律责任。 委员会 大数据技术标准推进 大数据 编制说明 本指南的撰写得到了DataOps领域多家企业与专家的支持和帮助,主要参与单位与人员如下。 大数据技术标准推进委员会 参编单位:大数据技术标准推进委员会、中国农业银行研发中心、阿里云计算有限公司、福建新大陆软件工程有限公司、联通数字科技有限公司、平安银行股份有限公司、中国移动通信集团浙江有限公司、中国移动通信集团江苏有限公司、中国工商银行股份有限公司、浩鲸云计算科技股份有限公司、海南数造科技有限公司、北京科杰科技有限公司、北京中软国际信息技术有限公司、杭州网易数帆科技有限公司、北京滴普科技有限公司、联想集团有限公司、华为终端有限公司、北京快手科技有限公司、中国人寿股份有限公司、极氪智能科技(杭州)有限公司、数梦工场科技有限公司。 大数据技术标准推进委员会 参编人员:尹正、田明慧、林木森、魏凯、姜春宇、闫树、王妙琼、李雨霏、阚鑫禹、张娇婷、周京晶、唐守忠、朱红伟、史珂宇、武兴叶、李林洋、陈荣耀、李成强、王溧、巫雪辉、朱坚、王项男、王兴杰、谭晟中、代立冬、聂励峰、华桊兴、项子林、李乌英嘎、岑伟迪、陈永刚、储晶星、王学亮、顾骧、廖云、徐明、李家欣、彭洁思、黄孔元、黄升、王瀚、鲍立飞、林吉昌、郭振强、高海玲、张新君、符山、于鹏、邓正保、徐华、王金杰、樊友平、秦海龙、刘波、冯吉坤、马立志、李思民、曾鸣、陈梁、林啸鸣、刘珩、董西成、张蕤、韩江、陈学亮、曲明钰、范铮、姚海涛、赵松、方华、甘长华、崔晓峰、念灿华。 同时感谢以下机构对本指南编写的指导与建议:上海浦东发展银行股份有限公司、上海新炬网络信息技术股份有限公司、杭州雅拓信息技术有限公司、度小满科技(北京)有限公司、杭州玳数科技有限公司、中电金信软件有限公司。 术标准推进委员会 特别鸣谢以下专家对本指南编写的指导与建议:朱红伟、李林洋、王溧、王项男、汪广盛、郭炜、张辉、黄孔元、鲍立飞、符山、秦海龙、林啸鸣、赵松、马欢。 委员会 大数据技术标准推进 术标准推进委员会 大数据 前言 党的二十大报告提出要“加快建设现代化经济体系,着力提高全要素生产率。”数据作为新型生产要素,是数字化、网络化、智能化的基础,已快速融入生产、分配、流通、消费和社会服务管理等各环节,深刻改变着生产方式、生活方式和社会治理方式。 大数据技术标准推进委员会 麦肯锡指出,到2025年,智能工作流程以及人与机器之间的无缝交互将成为企业的标准配置,大多数员工将使用数据优化工作的每个方面,企业的数据驱动能力将成为核心竞争力。而数据驱动的重点在于高效、高质量的数据供给能力,当前大多数企业存在数据链冗长、工具链杂乱、协作链脆弱等情况,导致取数难、用数难、管数难,无法支持企业数据价值的高效释放。为有效克服以上问题,业界积极探索新型的数据开发范式,将敏捷、协作、精益等理念引入到数据开发流程中,逐步形成DataOps理念和方法。DataOps通过构建高效协同机制、建立精细化数据运营体系、打造标准化与一体化的数据开发流程来提升数据开发效能,为企业的数据引擎“换挡提速”。 大数据技术标准推进委员会 当前,国内外DataOps的实践工作还处于起步阶段,其概念和实践方法论尚未形成,无法引导企业进行大规模的实践。为凝聚共识、开宗明义,大数据技术标准推进委员会(CCSATC601)组织大型银行、通信运营商、头部互联网公司共同编写《DataOps实践指南(1.0)》,旨在总结各行业最佳实践,提炼核心理论框架,推动DataOps理念的广泛应用,加速数据驱动型企业的能力建设。本指南将围绕DataOps助力企业高效、高质量释放数据要素价值为核心逻辑,阐述DataOps理念的演进历程、发展现状,重点讨论DataOps的概念内涵、价值作用、能力框架等,并对DataOps的发展进行展望。 目录 大数据技术标准推进 前言/4 CONTENTS版权声明/2 委员会 大数据 01发展背景 大数据技术标准推进委员会 (一)数据开发能力不足阻碍数据驱动型企业建设/7 (二)现有数据开发范式主要问题/7 (三)DataOps概念的演化/8 02DataOps概念及作用 大数据技术标准推进委员会 (一)DataOps概念定义/10 (二)DataOps的作用/10 图目 录 图1DataOps概念示意图/10图2DataOps能力模型框架/14 术标准推进委员会 图3DataOps数据流水线框架/15图4DataOps保障措施框架/17 03DataOps能力框架 (一)DataOps能力模型/14 (二)DataOps核心环节/15 (三)DataOps实践保障/16 04DataOps未来展望 (一)文化变革/19 (二)数智融合/19 (三)闭环进化/19 (四)内生安全/19 委员会 术标准推进委员会 大数据技术标准推进委员会 大数据 大数据技术标准推进 01 发展背景 大数据技术标准推进委员会 (一)数据开发能力不足阻碍数据驱动型企业建设/7 (二)现有数据开发范式主要问题/7 (三)DataOps概念的演化/8 大数据技术标准推进 01.发展背景 委员会 大数据 (企业一建)设数据开发能力不足阻碍数据驱动型 自2014年大数据写入国家政府工作报告起,我国开始重视大数据产业的发展,陆续发布了《促进大数据发展行动纲要》《大数据产业发展规划 大数据技术标准推进委员会 (2016—2020年)》《“十四五”大数据产业发展规划》等多个国家级文件,建设数字中国、实施大数据战略成为了我国数字经济发展的核心主线。2019年中央将数据上升到要素层面,2022年“数据二十条”发布,提出建设数据要素市场体系,重点需要完善数据基础制度,加强数据要素、数据产品的供给能力。 术标准推进委员会 大数据技术标准推进委员会 从企业侧来看,数字化转型的重点是构建数据驱动的能力,据波士顿公司旗下的NewVantagePartners公司2022年统计,97.0%的参与组织正在投资于数据计划,已有超过四分之一的企业建成为了数据驱动型的组织。麦肯锡全球研究院数据显示,数据驱动型组织在客户获取率、客户保留率和盈利机率方面分别实现了23倍、6倍和19倍的提升,未来数据驱动型企业将在数据要素市场竞争中抢得先机。成为数据驱动型企业,需要具备三大基本能力,一是坚实的数据平台,二是完善的数据管理体系,三是高效的数据产品与应用开发能力。经过10多年的发展,大部分企业构建了以数据仓库、数据湖为基础的大数据平台,实现了海量数据的汇聚、集成、存储与计算。数据管理方面,随着数据管理能力成熟度评估的贯标推广(据统计,自2022年起,每年都有上千家企业完成相关评估工作),推动数据管理的理念快速普及,企业内数据管理体系逐步完善。当前,企业数据能力建设的主要矛盾是旺盛 的数据需求与数据生产力不足之间的矛盾。据调研,头部运营商每月平均新产生200多个数据开发需求,平均响应时长为1.5至2周。展开来看,企业数据开发面临五大核心挑战,分别是数据需求的沟通不畅、数据产品交付的效率低下、数据开发与治理的割裂、数据工作协同差以及数据研发的投资收益比低,这些挑战是导致企业内数据生产力的低下的重要原因。 (二)现有数据开发范式主要问题 1.数据需求不畅通 数据开发人员和业务人员之间的沟通不畅,业 务人员往往不能准确表达自己的数据需求,缺少一定的数据思维。同时,数据开发人员也存在业务经验不足的问题,导致无法准确理解业务需求或者无法满足业务需求。数据需求在供需两端的沟通过程中存在歧义,产生信息差,并耗费了过长的时间,使得交付压力进一步增加。 2.产品交付效率低 随着企业经营与管理活动对数据的依赖程度 越来越高,数据需求数量呈爆发式增长,一些大型企业平均每年要面临上千项的数据需求压力。但由于数据研发人员的补充和培养需要较长的周期,导致数据研发引擎需要在超负荷运转的情况下进行交付。确保数据在各个环节中畅通无阻是保障数据工作正常运转的基础。然而,数据工作所涉及的环节链路较长,但数据研发的过程和管理较为松散,标准化、流程化程度低。在这种模式下,当数据研发团队面临大量需求的时候,交付的效率明显不足。数据需求的交付需要一至两周的时间。 3.开发治理两张皮 数据研发工作早期重心侧重于数据的研发交付 环节,缺乏对数据治理工作的意识和重视。企业普遍是“先研发、后治理”,在这种模式下,当企业发现数据问题时,数据早已进入到经营生产活动中并产生影响。此时再进行治理已经较难实现有效控制,质量问题一直在源源不断地产生。加之企业内部缺少全链路的数据监控,导致数据在交付端的质量堪忧。据某大型互联网企业统计,平均每发现10个数据质量问题,其中90%的问题都是被数据使用方发现。全链路监测与测试工作的缺失,直接降低了用数方对数据的信任程度。 大数据技术标准推进委员会 4.跨域协同难推进 通常情况下,数据研发团队独立存在于软件研 发、数据治理等团队,各自独立办公、独立考核。然而,良好数据的应用和产品开发需要明确的业务方向、可信与高效的数据支撑以及承载的软件共同支撑。当前这种职能上的割裂会导致跨团队间的协作和沟通成本极高。企业的组织管理机制阻碍了数据的丝滑流通与交付。 5.开发成本难管控 数据需求激增的背景下,企业投入大量的存算 大数据技术标准推进委员会 资源与时间去响应需求,但其中一部分的需求是相似或利用率较低的。粗犷式的需求响应模式的背后是大量的存算资源与时间成本的付出。据了解,某互联网企业有62%报表在30天内无人使用,每张报表所浪费的成本在3万元/月。 术标准推进委员会 面对目前数据开发范式遇到的瓶颈,企业需要一种现代化的数据研发、运营、管理实践理论来引导企业高效用数、放心用数,确保数据能够在企业内安全、高质量、高效率地运转,进而释放出更大的数据要素价值,DataOps理念应运而生。 (三)DataOps概念的演化 大数据技术标准推进 “DataOps”一词首次出现于2014年,莱尼·利伯曼(LennyLiebmann)在文章中指出“DataOps是优化数据科学和运维之间协作的最佳实践”1。 2018年9月Gartner将DataOps纳入到数据管理技术成熟度曲线,定义DataOps为“一种协作性的数据管理实践,专注于改善整个组织的数据管理者和消费者之间的沟通、整合和数据流的自动化”2。 对DataOps的定义与当时组织的发展阶段及关注的重点问题有很大的关系。总体而言,DataOps的提出是建立在大数据发展相对稳定和成熟之后,提出方多是厂商或咨询机构,提出的出发点包括强化数据工程的敏捷度、打通数据分析的管道等。 委员会 大数据 1"3reasonswhyDataOpsisessentialforbigdatasuccess".IBMBigData&AnalyticsHub.Retrieved2018-08-10.2"GartnerHypeCycleforDataManagementPositionsThreeTechnologiesintheInnovationTriggerPhasein2018".Gartner.Retrieved2019-07-19. 委员会 术标准推进委员会 大数据技术标准推进委员会 大数据 大数据技术标准推进 02 DataOps概念及作用 大数据技术标准推进委员会 (一)DataOps概念定义/10 (二)DataOps的作用/10 委员会 大数据技术标准推进 大数据 02.DataOps概念及作用 (一)DataOps概念定义 基于对我国大数据产业发展特征的研究以及对企业发展