基于Dataops的开发治理一体化实践 演讲人:乙峰 1 TITLE标题 2Da 3 4 网易集团TOB企业服务品牌 定位于领先的数字化转型技术与服务提供商 来自哪里 网易关系 使命与愿景 背靠网易杭研 网易技术科研和创新应用的前端 网易集团业务公共技术支撑团队网易技术对企业客户开放的接口 TOB业务排头兵 隶属数字产业事业部,垂直企业数字化转型技术与服务领域。 与网易智企、网易灵犀办公、网易伏羲共同担当网易TOB业务 品牌使命 帮助所有客户成功实现数字化转型 品牌愿景 成为客户首选的数字化转型技术与服务提供商 领先的数字化转型技术与服务提供商 网易数帆大数据的发展历史 2006 分布式数据库、分布式文件系统、分布式搜索引擎,三驾马车支撑了网易互联网2.0时代的产品 2014 大数据平台猛犸、网易大数据(有数)上线,加速了大数据规模化应用 2018 网易严选、考拉、音乐、新闻等业务相继开始数据中台构建,网易数帆发布“全链路数据中台”解决方案 2022 网易数帆发布数据治理和数据开发一体化“数据治理2.0”解决方案 2009 开始基于Hadoop做数据分析以及运维 2017 网易数帆大数据正式对外商业化 2020 网易数帆提出“数据生产力”理念,倡导“人人用数据、时时用数据” 领先的数字化转型技术与服务提供商 发布 业界对Dataops的理解 •Gartner:Dataops是一种敏捷和协作的数据管理实践,专注于数据管理者和数据消费者之间的数据流的通信、集成、自动化、运营。 •IBM:Dataops是人员、流程和技术的有机结合,用于快速向数据消费者提供可靠高质量的数据。 Data Ops 项目计划 网易:DataOps是一种将软件工程CI/CD的方法融入数据开发的流程,基于自动化的数据测试、任务发布等技术,构建数据发布流水线,使得数据开发效率更高、交付更加频繁,交付质量更有保障。 领先的数字化转型技术与服务提供商 Dataops重点解决的问题 QualityControl 46% Automation 35% Speedofanalyticsdelivery 34% Speedofteration 34% Accuracyanalyticsdelivery 33% BusinessAlignment 32% AuditingandMonitoring 32% Unifieddataaccess 30% UnifiedDatasecurityandprivacy 28% Testinganddeployment 28% CodeandChangemanagement 24% 领先的数字化转型技术与服务提供商 数据处理 Dataops的价值 部署 持续发布 编排 工作流 数据管道 开发 持续集成 测试 监控告警 源数据供应链系统交易系统外部数据 业务系统开发数据采集 数据接入 CDC 数据传输 流/批 数据工程 ETL,数据加工 数据分析 编辑报告、专题 数据消 费者 数据集成 ETL 数据探查 数据质量 数据准备 元数据 数据目录 数据分析有数BI报表 仪表盘 •Dataops是一种协作框架,专注于数据相关流程的自动化、集成和优化 •Dataops体现了产品、技术和数据的有机结合,包括数据开发流水线、版本控制和CI/CD管道,来简化数据生命周期 •Dataops的目标是及时、可靠地向数据需求方提供高质量的数据 数据分析师业务分析师数据产品业务系统 数据开发 领先的数字化转型技术与服务提供商 发布中心 实现跨环境的资源发布 Dataops-网易数帆产品化实践探索 数据流水线 通过整合不同的子产品,建立一条数据流水线,实现数据需求的自动化流程和组织的高效协作,覆盖完整数据生命周期。 持续集成与持续交付 Dataops强调持续集成和持续交付,以实现数据处理的快速迭代和部署 可信与安全 Dataops需要保证数据资产和用户产生的数据集的可用性,同时保障数据能够被安全合规的使用 领先的数字化转型技术与服务提供商 网易数帆-数据生产力模型 数据生产力 广义上:通过使用数据带来组织生产力提升。 狭义上:企业员工使用平台工具采集数据、处理数据,数据分析以及管理数据的能力。 一个愿景 人人用数据,时时用数据 三个方法论 DataOps、DataFusion、DataProduct 领先的数字化转型技术与服务提供商 网易DataOps1.0:数据发布流水线 DataOps ContinuousIntegrationContinuousDeliveryContinuousDeployment 编码 编排 测试 代码审查 发布审核 部署上线 •数据开发IDE •多版本管理(含调度) •UDFStudio •任务模板(组件库) •依赖调度 •智能任务依赖推荐 •参数组 •资源组 •数据比对 •数据沙箱 •自动化回归 •数据形态探查 •SQLScan •CodeReivew •发布包 •全链路影响分析 •自定义审核流程 •基于优先级资源调度 •智能诊断 •基线预警 •SLA 效能工具 领先的数字化转型技术与服务提供商 数据消费依然存在的困扰 现象 •模型命名不规范 •字段命名不唯一 •没有数据安全规范,数据分级分类无 法得到实施 原因分析 •缺乏标准,建模随意 规范缺失 现象 •数据开发自行开发所需数据表,公共 逻辑未沉淀,重复建设多 •近义指标膨胀 原因分析 •传统建模为了满足业务快速交付,开 发流程约束收效甚微 烟囱式开发 现象 •数据质量稽核规则覆盖率不高 •70%的相同数据项,稽核规则和/或阈 值设置不一致 原因分析 •质量稽核规则没有配置依据,依赖人 员对数据的理解程度 质量规则覆盖不佳 领先的数字化转型技术与服务提供商 网易DataOps2.0:数据开发治理一体化 •“先设计,后开发,先标准,再建模”,数据标准成为研发治理一体化的核心 •将数据治理的流程自然融入数据开发的全生命周期过程中,在数据开发的过程中完成数据治理 稽核规则定义稽核规则推荐 治理套件 数据安全规则 开发套件 字段类型、分类、数据格式规范 指标、数据元、分层分类 字段类型映射规范(快速建表) 元数据管理 数据处理规范 (字段映射、按格 式处理) 技术元数据 管理元数据业务元数据 质量规则 资产等级 安全等级安全规则 全链路血缘 发布审核 数据标准 元模型、词根数据元、数据字典 资源分类 原子指标派生指标复合指标 维度事实 模型关系 传输过程静态脱敏 临时查询动态脱敏 设计阶段 开发阶段 测试阶段 上线阶段 任务运维 数据测试 离线开发 自助分析 数据传输 模型设计 指标设计 任务发布 安全中心 数据质量 流程引擎 领先的数字化转型技术与服务提供商 网易DataOps2.0:数据安全治理 ❑组织保障:建立企业级安全治理组织结构,为安全治理保驾护航 ❑实现项目级,项目组级角色/人员管理,并制定相关规范 ❑公开可查询 ❑制度规范:基于分类分级的权限管理制度,企业分类分级模板 ❑数据安全红线:明确不可触碰的安全红线行为 ❑建立培训交流分享制度:帮助企业建立安全治理体系 流程引擎 ❑丰富产品功能:权限、管理、保护、审计等四大功能中心 ❑安全治理评估体系:数据全生命周期,安全分体系 ❑流程引擎:治理流程线上化保障 权限中心 管理中心 组织保障 保护中心 审计中心 项目组级项目级 明确的组织结构保障 制度规范数据标准行业模板 体系化制度流程依据 完善的产品工具能力底座 领先的数字化转型技术与服务提供商 网易DataOps2.0:发布中心 EasyData的统⼀资源发布平台,通过资源打包、发布、导⼊、应⽤等过程,实现在线和离线场景下的跨环境资源发布 领先的数字化转型技术与服务提供商 网易数帆-基于Dataops的开发治理一体化产品体系 有数BI 数据门户可视化报表自助取数移动端数据填报智能决策驾驶舱数据准备数据大屏复杂报表 大数据开发治理平台EasyData 数据服务 数据标准 数据元 元数据管理 数据地图 元数据采集 数据目录 指标系统 原子/派生 数据质量 稽核监控 数据治理360 价值分析 模型设计中心 维度建模 数据安全 数据加密脱敏 面向数据分析的数据治理体系 数据字典 元数据注册 数据检索 版本管理 质量报告 成本分析 量化评估 安全等级 数据分类元数据扫描资产门户指标字典强弱规则量化ROI规范设计敏感识别 标准发布 元数据发布 数据血缘 指标关联 质量工单 数据下线 发布审核 权限申请 基于DataOps数据开发 数据集成 数据开发 数据测试 任务运维 大数据基础平台NDH SparkHiveImpalaFlink 领先的数字化转型技术与服务提供商 Yarn/K8sArctic(实时数据湖)HDFS/S3 自动化运维管理 开发治理一体化:网易落地成果 规范 •先标准后建模,确保了表、字段、指标命名的一致性及规范性 •字段标准化率达到80%,字段及指标的安全等级已完成100%设置 领先的数字化转型技术与服务提供商 效率 •先设计后开发极大程度保证了公共层逻辑下沉 •相同需求对应指标数量缩减48.7% •云音乐模型复用度从2.4%提升到9.6%, 下线3.4W个模型 质量&安全 •帮助云音乐完成上市监管安全检查 •自动根据数据标准生成质量稽核规则 •规则覆盖率达到65%,单个任务的配置效率提升约70% •严选质量覆盖率提升100% 开发治理一体化:某券商落地成果 治理目标:数据资产化、数据价值化、数据智能化 三大痛点 •标准:公司内数据孤岛现象严重,阻碍 数据内部共享 •质量:数据质量难以及时满足业务预期,无法助力数据挖掘产生价值 •安全:难以兼顾数据流通和数据安全的 平衡 重要举措 •组织架构:结合企业组织架构及人员配置落实数据治理工作、权责分担机制 •业务流程:针对存量数据、新增数据制定不同的治理流程,并做到仓内仓外元数据统一管理 •产品工具:将整个数据治理流程贯穿于各个子产品模块中,打造开发与治理一体化的数据中台 落地成果(截至2022年) •数据标准管理:基础数据标准179个,指标数据72个,搭建统一的公共字典合计7个词根新增159个,制定两套数据标准分类方案。 •数据质量管理:累计沉淀400余项数据质量规则。 •数据安全管理:基于数据分级分类的数据服务审批流程上线,基于脱敏数据在开发环境进行开发和任务发布的研发流程打通。 领先的数字化转型技术与服务提供商 开发治理一体化:某运营商落地成果 质量 价值 安全 成本 标准 效率 •质量问题下降了63% •稽核规则覆盖率达到92% 领先的数字化转型技术与服务提供商 •质量稽核规则、数据模型、数据标准的统一,解决了稽核规则完备性的根本问题 •数据使用用户规模从30+扩展到500+ •平台用户业务人员的比例从30%提升到98% •梳理数据安全等级,治理非法权限策略1200+ •数据标准与数据安全策略(权限、脱敏)保持一致 •下线无用数据20%,年约节省成本超过100W •构建了精细化的管理机制 •完成企业数据标准定标500+,发布电信行业数据标准 •申报行业标准规范 •需求延期率下降到1% •平均需求交付时间从一周提升到3天 THANKS