您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[网易]:Dataops能力体系建设 - 发现报告
当前位置:首页/其他报告/报告详情/

Dataops能力体系建设

2023-06-11网易我***
Dataops能力体系建设

DataOps能力体系建设 云计算与大数据研究所尹正 DataOps发展历程简介 目 CONTENTS 录 金融业实践案例分享 DataOps能力标准框架介绍 DataOps生态社区介绍 DataOps发展历程简介 国家:实施国家大数据战略加快建设数字中国 要构建以数据为关键要素的数字经济 ——习近平总书记2017年12月8日在十九届中央政治局第二次集体学习时提出 《中共中央国务院关于构建数据基础制度更好发挥数据要素作用的意见》 ——2022年6月22日中央深改委第26次会议审议通过 数据产权制度|流通交易制度|收益分配制度|安全治理制度 提高数据要素供给数量和质量,充分保障数据处理者使用数据和获得收益的权利充分实现数据要素价值、促进全体人民共享数字经济发展红利 企业:数据驱动是数字化转型的核心 01 实时 分析 全面 用数 02 随时 可用 06 数据驱动型 企业的特征 03 闭环 运营柔性 管控 05 内外 贯通 04 数据驱动型企业 将赢得数字化竞争优势 数据驱动型企业必备的三个核心能力 数据平台建设和数据资产管理能力提升,激发了数据需求,数据开发能力与需求之间的矛盾日益突出 3数据应用开发 数据管理意识普及,2022年1024家完成DCMM贯标,数据资产管理能力加速提升 2DAMADCMM…… 数据资产管理 数据平台建设先行,具备相对较好基础 1数仓大数据平台数据湖数据中台…… 数据平台建设 DataOops 数字化转型陷入怪圈 人工依赖度高 •过度依赖人工经验 •过度依赖人工决策 团队协作难 •工具系统多 •团队链路长 •沟通成本高 需求响应慢 •数据需求提出量暴增 •需求提出的质量低 开发效能不足 •数据开发运营运维流程浪费严重 •数据工作流割裂 管理有缺失 •效能管理缺失 •DT一体化管理缺失 现代化数据开发范式亟待形成 传统数据开发范式遇到的挑战推动数据开发应用模式创新变革,亟需新的实践方法论来推动工具、流程和人员等资源的优化重组,提升数据产品供给能力。 形成敏捷数据产品开发流程 •敏捷迭代,快速响应需求变化 •自助服务,主动利用数据资产 打造开发治理一体化流水线 •前置数据质量管控 •治理过程融入开发流程 •打造自动化测试流程,及时处理问题 构建高效的跨域协同机制 •跨部门协作,打造协同型团队 •建立良好沟通机制,塑造协同文化 •借助技术赋能,善用协同工具 建立精细化的数据运营体系 •全链路度量与反馈 •减少人力成本 •降低运营成本 数据研发运营一体化(DataOps):是数据开发的新范 式,将敏捷、精益等理念融入数据开发过程,通过对数据相关人员、工具和流程的重新组织,打破协作壁垒,构建集开发、治理、运营于一体的自动化数据流水线,不断提高数据产品交付效率与质量,实现高质量数字化发展。 数字化转型关键阶段 完成 数字化蜕变 业务发展关键时期数据意识逐渐成熟数据需求激增 DataOps为数据引擎换挡 转型产生价值 DataOps 信息化建设阶段 数字化转型阶段 数字化转型完成 发展阶段 数据准备时间长数据项目成本高需求响应不及时 DataOps的发展 2022 DataOps的概念最早在2014年由国外学者提出,随后业界逐步对其内涵进行补充。在2018年DataOps正式被纳入Gartner的数据管理技术成熟度曲线当中,由此进入了国际的视野当中。2022年中国信通院正式牵头启动了DataOps的标准建设工作,以此为基础推动我国大数据产业的多元化发展,助力企业完成数智化蜕变。 自2018年被Gartner纳入到数据管理技术成熟度曲线以来,DataOps热度逐年上升,在21年处在一个从萌芽期到爆发期的关键过度阶段,预示着未来2-5年内DataOps 将得到广泛的实践应用。 DataOps产生背景 概念提出 LennyLiebmann提出DataOps的概念,在《3reasonswhyDataOpsisessentialforbigdatasuccess》这篇文章中,Lenny提出DataOps是优化数据科学和运营团队之间协作的一些实践集。 定义加深 Nexla的JarahEuston把DataOps的核心定义为从数据到价值。这个是首次把DataOps和业务价值关联起来的定义。 2014201520172018 关键构成 AndyPalmer将这个理念发扬光大,提出了DataOps的四个关键构成,数据工程、数据集成、数据安全和数据质量。 技术成熟度曲线 Gartner将其纳入到数据管理的技术成熟度曲线,标志着DataOps正式被业界所接纳并推广起来 编排 轻编排 重编排 数据管道编排 数据分析编排 DataOpsV.SDevOps DataOps借鉴了许多DevOps中优秀的的理念和方法,对DevOps有着深入实践的组织也更容易实现DataOps的应用。 相似点 敏捷开发 业务价值导向CICD 自动化测试重用复用 自动化 差异点 重编排 数据管道编排数据分析编排 轻编排 编排 数据开发数据分析数据管理 软件开发 过程 工具链还在构建当中自动化初期阶段 工具链成熟自动化程度高 工具 工程师 数据科学家数据分析师 工程师 软件开发人员 人员 DataOps DevOps DataOps虽然源于DevOps,但由于数据项目的场景更为复杂。在实践DataOps的过程中,也不能仅仅将DevOps用在数据开发当中。 DataOps的复杂性 OneforALL 采购大型软件、云、数据专业产品提供商 •微软 •亚马逊 •Oracle •Infoworks ALLforOne 用编排和监控工具将开源的组件和商业组件结合在一起。Confluence AirflowPulsarTalend 的。引用一张图片来作为DataOps环境的关键组件的简化图。 图片来源:EckersonGroup 数据在技术侧包括了至少产生、集成、加工、分析使用、退役等过程,管理侧至少包括了标准、质量、模型、元数据、安全等方面。如此多的环节包括了更多的组件和过程,那么定义DataOps是非常困难 DataOps的收益 数据准备效率>10倍 研发效率>50倍 典型全量案例回归时间缩短 >15倍 某国有大型商业银行,借鉴DataOps理念 字段标准化率达到80%,字段及指标的安全等级已完成100%设置 相同需求对应指标数量缩减 48.7% 云音乐模型复用度从2.4%提升到 9.6%,下线3.4W个模型 规则覆盖率达到65%,单个任务的配置效率提升约70% 严选质量覆盖率提升100% 网易集团持续优化DataOps体系 GE降低HIVE成本40% (4500万美元/年审计成本) TrueDigital(泰国远程电话公 司)提升平台表现力2倍 PhonePe(沃尔玛手机支付app) 0Sev-1问题 SEV1事故:每分钟损失近百万美元的宕机事故 外企,探索DataOps的实践价值 金融业实践案例分享 DataOps实践情况 实践上看,欧美国家的一些公司在DataOps的探索和发展上要早于中国。现阶段,我国有更广阔的发展空间和挖掘潜力,在制度保障、人才培养、技术储备发展上都有着长期优势。 DataOps实践情况——A银行 以数据和技术为关键要素,以组织机构改革为内生发展动能,基于DataOps随时、随地、随需的敏捷用数理念,加快提升数字工行数据要素采集、整合和应用能力,释放数据要素的倍增和乘数效应,为数字银行带来效率提升、体验提升和模式创新,全面提升“数字银行”普惠金融高质量服务中国式现代化能力。 DataOps实践情况——A银行 以面向全行提供规模化普惠用数服务能力为目标,基于DataOps随时、随地、随需敏捷用数理念,融合行内外数据要素,实现全员自助、全域共享、数智融合、业数融合,释放数据要素的乘数效应和倍增效应,全面赋能数字银行建设。 DataOps实践情况——A银行 基于数据中台和AI中台等平台能力,面向数据科学家、分析师、算法工程师等数据产品生产人员提供融合数据、算法、工具、验证、发布于一体的“低代码”数据产品研发工作台;面向业务人员、业务客户、业务系统等数据产品使用用户提供数据即服务、模型即服务、解决方案即服务的“零代码”数据产品订阅服务。 DataOps能力标准框架介绍 DataOps标准建设意义 DataOps标准的建设意义在于:一是确定Dataops概念意义、明确DataOps实施流程、把握企业发展阶段和方向。二是通过标准引领的方式,引导企业快速接纳DataOps文化,尽快完成数智化转型,释放数据要素价值。 DataOps标准框架 业务研发管理 需求 组织管理 交付管理 数据运维持续运营业务 价值 系统安全 工具管控 DataOps标准体系 DataOps如何影响组织 DataOps是一场由业务主导,驱动数据变革的革命。 组织 流程 工具 数据思维纳入组织通识教育 专职于效能与协同的岗位 决策层的战略支持 标准化数据工作程序 从面相交付到面相业务 降低个人依赖 使用者不仅限于技术人员 强化一体化设计能力 持续优化 DataOps在组织、流程和工具三个方面对企业产生影响。要求组织内人员更深入的吸收数据文化、加强协作,重构数据工作流程,加强一体化设计的数据开发、治理、运营运维、应用的平台优化 DataOps工作计划 产业研究 研究报告 能力图谱 案例汇编 生态共建 创新实验室 谷雨社区 谷雨计划 技术标准 以评促建 筹备国际标准 数据运维标准 交付管理标准 系统工具标准 DataOps工作组于2022年正式成立,已初步完成DataOps能力标准框架与研发管理的标准编制。2023年将陆续发布《DataOps实践指南1.0》以及系列标准中的系统工具、交付管理和运维管理部分。持续开展相关评估评测工作,并按需举办专题的峰会及论坛活动。 DataOps生态社区介绍 DataOps生态 “谷雨生态”由谷雨创新实验室、谷雨专家社区和谷雨灯塔计划3大主题活动构成,分别面向企业、个人和场景打造,共同探讨DataOps创新理念,孵化前沿实践。 谷雨实验室 DataOpsLabs 与企业共同探索DataOps在企业场景下的落地实践,提炼新一代的数据开发方法论,打造典型场景和工具解决方案。 谷雨社区 谷雨生态 DataOpsCommunity 面向关注DataOps的个人,打造良好氛围的知识社区,打造包容创新的交流平台,促进优质理念的共享与沉淀。 谷雨灯塔计划DataOpsPilot 寻找企业痛点问题,共同打造解决方案,贯通数据开发流水线,驱 动组织、流程、工具变革,提升业务团队数据应用体验。 DataOps谷雨创新实验室 应用创新实验室 面向DataOps的应用方,探索 DataOps的落地场景,打造典型案例, 形成实践方法论。 产品创新实验室 面向DataOps的服务方,共同孵化DataOps工具产品和解决方案,打造 贯通、便捷的技术生态。 首批DataOps应用创新实验室 首批DataOps产品创新实验室 DataOps谷雨灯塔计划 找一个业务场景,抓一个痛点问题,找一套解决方案,建一个典型案例。 谷雨灯塔计划 切入实际业务视角,积极发现、诊断数据应用效能问题,驱动组织、流程、工具变革,贯通数据应用流水线,提升业务团队数据应用体验。 DataOps谷雨专家社区 形式 DataOps研讨小组 DataOps谷雨社区开放交流日 搭建社区开放共享平台 目标 开放包容的知识社区 友好创新的交流平台 先进共享的分享平台 面向关注DataOps发展与实践的个人,组建“DataOps谷雨专家社区”,打造开放包容的知识分享氛围,共享最新研究成果,跟进研究动态。 “不求万数为