您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[ArchSummit上海2023|全球架构师峰会]:网易基于DataOps的敏捷、高质量数据开发实践-郭忆 - 发现报告
当前位置:首页/行业研究/报告详情/

网易基于DataOps的敏捷、高质量数据开发实践-郭忆

AI智能总结
查看更多
网易基于DataOps的敏捷、高质量数据开发实践-郭忆

网易基于DataOps的开发治理一体化实践 郭忆|网易大数据EasyData产品技术负责人 郭忆 •网易数帆数据开发与管理平台EasyData产品负责人 •研究生毕业于天津大学,计算机应用专业 •加入网易12年,一直从事数据相关系统设计和研发 •构建了网易数据中台支撑技术体系,支撑了网易云音乐、严选、传媒、有道的数据中台项目建设 •多次受邀在全球互联网架构大会(GIAC)、全球开发者大会 (QCon)、中国数据库大会(DTCC)、系统架构师大会(SACC)分享大数据建设实践经验 •极客时间专栏《数据中台实战课》作者,订阅量超过21000+ Agenda •网易数帆 •DataOps1.0:敏捷、高质量开发实践 •DataOps2.0:开发治理一体化实践 •DataOps行业实践 网易杭州研究院 音乐 电商 教育 传媒 办公 邮箱 记忆科技 公共技术研发 物流农业零售制造 电力教育 华夏银行 金融医药 前瞻技术研究 公共数据建设 工具产品平台 数据建设方法论 创新产品孵化 网易数帆 网易数据生产力的实践历程 2006 分布式数据库、分布式文件系统、分布式搜索引擎,三驾马车支撑了网易互联网2.0时代的产品 2014 大数据平台上线,加速了大数据规模化应用 2018 网易严选、音乐、有道、新闻等业务相继开始数据中台构建,网易发布 “全链路数据中台”解决方案 2022 网易发布开发治理一体化“数据治理2.0”解决方案 2009 开始基于Hadoop做数据分析以及运维 2017 网易大数据正式对外商业化 2020 网易实践“DataOps”,加速数据分析效率,提升数据开发质量 数据生产力 •数据生产力: 广义上:通过使用数据带来组织生产力提升。 狭义上:企业员工使用平台工具采集数据、处理数据,数据分析以及管理数据的能力。 •一个愿景: 人人用数据,时时用数据 •三个方法论: DataOps、DataFusion、DataProduct 产品矩阵 数据门户 可视化报表 有数BI自助取数 移动端 数据填报 机器学习 交互式建模在线推理 活动管理 CDP 人群圈选 智能决策驾驶舱 数据准备 数据大屏 复杂报表 可视化建模训练任务 活动分析 渠道触达 数据标准 元数据管理 数据地图 指标系统 数据质量 数据资产中心 模型设计中心 数据安全 数据服务 数据元 元数据采集 数据目录 原子/派生 稽核监控 价值分析 维度建模 数据脱敏 API发布 数据字典数据分类 元数据注册元数据扫描 数据检索资产门户 版本管理指标字典 质量报告强弱规则 成本分析量化ROI 量化评估规范设计 安全等级敏感识别 服务编排 服务权限 标准发布 元数据发布 数据血缘 指标关联 质量工单 数据下线 发布审核 权限申请 服务监控 基于DataOps全生命周期数据开发 数据集成数据开发数据测试 任务运维 NDH sparkhiveImpalaflink Yarn/K8sArctic(实时数据湖) HDFS/S3 自动化运维管理 好未来 华泰证券 东北证券 广发证券 民生证券 华福证券 华国夏新银证行券 天风证券 杭州联合银行 华夏银行 杭州银行 渣打银行 台州银行 泰康资产 马上消费 浙江机电 浙江电信 福建电力 浙江日报 浙交规 南京大数据 中国能建投 南方日报 浙江移动 科沃斯 五菱汽车 长安汽车 广汽汽车 吉利汽车 路特斯汽车 记忆科技 华存 九州通 比心 温氏集团 浙商银行 恒丰银行 北京银行 江苏农信 他们都在用网易大数据 Agenda •网易数帆 •DataOps1.0:敏捷、高质量开发实践 •DataOps2.0:开发治理一体化实践 •DataOps行业实践 DataOps:血淋淋的教训 数据问题 数据开发65% 数据开发任务变更导致的生产环境数据问题占比达到65%! 按期交付率 延期交付 按期交付 30%的需求交付延期 •在某电商业务中,业务三单有礼,因为上游任务变更,导致下游涉及资损数据计算异常,造 成P1级别>30W生产事故。 •在某电商业务中,由于订单标签任务依赖配置缺失,导致下游任务空跑造成数据异常,给老 客发了红包,造成P1级别>20W的资损。 DataOps:为什么会出现这些问题? 缺少全链路影响分析 任务依赖复杂,严选有9540个任务依赖上游,下游任 务有17层任务依赖,数据开发在变更任务的时候,根 本不知道下游涉及的影响。 缺少发布管控 任务的发布缺少发布审核,涉及核心资产的任务变更缺少管控。任务发布上线更改随意,没有经过发布审核,CodeReview相关环节,甚至核心任务变更,相关负责人都不知道。。 缺少自动化数据测试 任务变更缺少数据测试,因为缺少自动化工具的支撑,导致很多任务,未经过严格的数据测试,甚至有16%的任务都未运行过,就提交上线,最终导致生产事故发生。 任务依赖容易缺失 任务依赖容易缺失,任务依赖配置复杂,很容易造成缺失,任务空跑,最终下游数据�错。 DataOps DataOps •敏捷、质量 •DataOps是一种将软件工程CI/CD的方法融入数据开发的流程,基于自动化的数据测试、任务发布等技术,构建数据发布流水线,使得数据开发效率更高、交付更加频繁,交付质量更有保障。 •DataOps要解决的问题: •研发过程中需求频繁变化 •阶段性成果能够更快速的被验证 •通过引入数据测试,将质量保障前置 DataOps:数据发布流水线 DataOps ContinuousIntegrationContinuousDeliveryContinuousDeployment 编码 编排 测试 代码 审查 发布 审核 部署 上线 •数据开发IDE •依赖调度 •数据比对 •SQL Scan •发布包 •基于优先级资源调度 •多版本管理(含调度) •智能任务依赖推荐 •数据沙箱 •Code Reivew •全链路影响分析 •智能诊断 •UDFStudio•任务模板(组件库) •参数组•资源组 •自动化回归•数据形态探查 •自定义审核流程 •基线预警•SLA •效能工具 •流程协作 多环境一键发布 开发平台 数据沙箱 调度集群 •生产、测试物理集群隔离,互不影响 Yarn_Dev 开发模式 HDFS_Dev Yarn 生产模式 HDFS MetaStore (共享元数据) •开发集群任务直接引用生产集群脱敏数据测试,不需要导数据 •开发集群无法写入生产集群数据,避免生产集群数据被污染 •开发集群和生产集群,一套代码,直接运行,不需要发布修改代码 数据测试 •数据形态探查 •值域 •枚举值分布 •空置比例 •重复情况 •最大长度/最小长度 •数据比对 •全量/抽样 •主键关联/MD5关联 SQLScan SQL静态扫描 •跨层依赖:dws/ads/dm直接读取ods层表 •全表扫,不带分区 •使用固定分区 •对明细表lateralviewexplode •关联Key应该至少是一个表的唯一键,避免笛卡尔积 •避免使用distinct,使用groupby改写 •避免出现多个fulljoin,fulljoin可以用unionall优化 •注意关联Key在关联各表内的分布情况,典型的情况是空值或者0值,避免数据倾斜 •未使用压缩 •禁止select* •临时表任务结束未删除 自定义规则扩展…… Agenda •网易数帆 •DataOps1.0:敏捷、高质量开发实践 •DataOps2.0:开发治理一体化实践 •DataOps行业实践 现象 •数据质量稽核规则覆盖率只有10% •70%的相同数据项,稽核规则和/或阈值设置不一致 原因分析 •质量稽核规则没有配置依据,依赖人 员对数据的理解程度 质量规则覆盖不佳 数据消费依然存在问题 现象 •37%的表存在命名不规范问题 •相同的字段,有8种以上的字段命名 •没有定义数据的安全规范,数据分级分类无法得到实施 原因分析 •缺乏标准,建模随意 规范缺失 现象 •数据开发自行开发所需数据表,公共 逻辑未沉淀,重复建设多 •近义指标膨胀 原因分析 •传统建模为了满足业务快速交付,开 发流程约束收效甚微 烟囱式数据架构 数据开发与治理一体化 先设计,后开发,先标准,后建模 将数据治理的流程自然融入数据开发的全生命周期过程中,在数据开发的过程中就完成数据治理 字段类型、分类、数据格式规范 表命名、分层分类 字段类型映射规范(快速建表) 数据处理规范 (字段映射、按格式处理) 稽核规则定义稽核规则推荐 数据质量 质量规则 资产等级 安全中心 数据安全规则 安全等级安全规则 治理套件 开发套件 数据测试报告 发布审核 数据标准 指标设计 模型设计 数据传输 自助分析 离线开发 数据测试 任务发布 数据质量监控 元模型、词根数据元、数据字典 资源分类引入或设计 业务指标原子指标衍生指标复合指标 维度事实 模型关系 传输过程静态脱敏 临时查询动态脱敏 设计阶段 开发测试 上线日常监控 开发治理一体化:以数据标准为根本 数据标准设计内容 数据标准 安全规范 质量规范 值域规范 格式规范 命名规范 数据标准打通各模块的方式 •通过数据元承载格式及值域规范并自动生成稽核规则 •数据建模直接应用数据标准中数据元和元模型 •根据表绑定的数据标准所关联的稽核规则,自动添加到表的稽核监控 •根据表绑定的数据标准所关联的安全规则,自动应用到数据脱敏任务 数据安全 需求 数据抽取 数据探查 数据建模 数据开发 数据质量 任务发布 持续运维 数据标准 信得过 开发治理一体化:以全生命周期元数据为底座 全生命周期的元数据接受了来自设计、开发、消费过程中的所有元数据,让元数据更加完备,形成数据资产 统一元数据 设计过程元数据 开发过程元数据 消费过程元数据 …… 用户评价 资产活跃度 需求满足率 …… 质量报告 物理表定义 血缘 …… 安全等级 模型定义 关联的标准 数据生命周期 数据服务 数据建模 数据安全 数据标准 数据质量 数据探查 数据开发 数据抽取 数据资产 找得到 看得懂 管得了 一体化模式 一步到位,长效解决 两种治理模式的对比 传统治理模式 先污染后治理 •随着需求增多,口径不统一越严重 运动式治理 •缺统一衡量标准,价值难以度量 •无持续优化机制 开发治理一体化:网易落地成果 规范 •先标准后建模,确保了表、字段、指标命名的一致性及规范性 •字段标准化率达到80%,字段及指标的安 全等级已完成100%设置 效率 •先设计后开发极大程度保证了公共层逻辑下沉 •相同需求对应指标数量缩减48.7% •云音乐模型复用度从2.4%提升到9.6%,下线3.4W个模型 质量 •自动根据数据标准生成质量稽核规则 •规则覆盖率达到65%,单个任务的配置效率提升约70% •严选质量覆盖率提升100% 开发治理一体化:给管理者的建议 三个核心原则三大落地支撑 •关注数据消费,成果可衡量,治理可改进 •开发治理一体化,保障数据流水线高质量运行 •先设计,后开发,先标准,后建模 •科学的评估体系:构建资产健康分,让治理价值可量化 •完善的工具平台:数据标准产品化 •持续的数据运营:组织流程打通,数据文化建设 数据文化 Agenda •网易数帆 •DataOps1.0:敏捷、高质量开发实践 •DataOps2.0:开发治理一体化实践 •DataOps行业实践 开发工具 调度工具 思特奇 鸿程 数据血缘 元数据管理 亚信 国信 质量管理主数据管理其他 多厂家、工具割裂 浙江电信 在引入网易一站式工具平台前面临问题: •数据标准、数据质量与数据开发严重脱节,规范只能停留在字典层面,无法融入数据生产的流程中,不能有效的落地执行

你可能感兴趣

hot

尹正-重塑数据生产力:DataOps能力体系建设与实践

信息技术
2023 DOIS DevOps 国际峰会 · 北京站暨 BizDevOps 企业峰会2023-10-08
hot

基于零信任安全架构的开发运维安全管控平台实践

第六届云安全联盟大中华区大会2023-04-15
hot

网易云音乐数据研发模式DataOps落地实践_宋东辉

文化传媒
ArchSummit深圳2023|全球架构师峰会2023-08-02