数据治理2.0 2022数字+大会 开发与治理一体化 主讲人:郭忆网易数帆大数据产品技术负责人 郭忆 •网易数帆大数据产品技术负责人 •研究生毕业于天津大学,计算机应用专业 2022数字+大会 •十年数据相关系统设计和研发经验 •构建了网易数帆数据中台支撑技术体系,支撑了网易云音乐、严选、传媒、有道、邮箱等数据中台项目建设 •多次受邀在全球开发者大会(QCon)、全球互联网架构大会(GIAC)、中国数据库大会(DTCC)、系统架构师大会(SACC)分享网易数帆数据建设实践经验 •极客时间专栏《数据中台实战课》作者,订阅量超过19000+ 01传统数据治理面临的挑战 2022数字+大会 目录 CONTENTS 02网易数帆数据治理2.0 03数据治理实践 2022数字+大会 传统数据治理面临的挑战 数据生产力 2022数字+大会 数据生产力:通过使用数据带来组织生产力的提升1个愿景:人人用数据、时时用数据 3个方法论:DataOps、DataFusion、DataProduct 网易数帆数据生产力模型 聚焦:金融|制造|医药|流通|国企 2022数字+大会 数据治理是构建数据生产力的基础 找不到 •60%的数据都没有挂靠数据目录 •数据零散的分布在多套Hadoop和数据仓库之间 看不懂 •78%的元数据都存在缺失,尤其是管理元数据和业务元数据 信不过 •每周都有10个以上的数据质量问题被投诉,且90%都是业务先发现 •数据脱敏规则漏配,导致供应商数据 被泄漏 管不过 •78.39%的表,占据了21.63%的存储,在30天内都无人访问 •每个月都有5次以上的事故跟业务滥 用大查询相关 数据开发效率低、质量差 •38%的需求交付存在延期 •65%的数据质量问题都是由数据开发任务变更导致 2022数字+大会 传统数据治理1.0 数据标准 (定标) 数据安全 元数据管理 (落标) 数据质量 2022数字+大会 传统数据治理缺陷(一)开发与治理脱节 数据建模与数据标准脱节 数据安全与数据标准脱节 数据建模与元数据注册脱节 数据质量与数据标准脱节 数据开发与数据标准脱节 传统数据治理缺陷(二)没有解决烟囱式的数据架构 Table Table Table •指标口径不一致 2022数字+大会 •数据重复开发,带来的效率问题 Table Table Table •数据重复计算带来的资源使用问题 TDH Oracle MySQL 传统数据治理缺陷(三)缺少对不同平台的统一管理 Doris ClickHouse TiDB CDH 2022数字+大会 关系型数据库分析型数据库数据湖 Greenplum Vertica Fusioninsight 2022数字+大会 传统数据治理缺陷(四)数据治理跟数据消费脱节 跟BI工具无法打通 缺少统一的数据资产门户 传统数据治理缺陷(五)忽视了数据开发过程中的效率、质量问题! •在某电商业务中,业务三单有礼,因为上游任务变更,导致下游涉及资损数据计算异常,造成P1级别>30W生产事故。 •在某电商业务中,由于订单标签任务依赖配置缺失,导致下游任务空跑造成数据异常,给老客发了红包,造成P1级别>20W的资损。 2022数字+大会 数据问题 数据开发任务及配置导致65% 数据开发任务变更导致的生产环境数据问题占比达到65%! 2022数字+大会 传统数据治理缺陷(六)资产属性评估不足 78.39%表 占据了21%存储空间,30天内都无人使用 数据缺少分类分级,对数据字段的敏感等级缺少管理 每个月有3次以上事故跟资源不合理使用有关 2022数字+大会 传统数据治理缺陷(七)缺少量化的手段 数据质量 数据安全 数据价值 数据建模 数据成本 规范设计 2022数字+大会 网易数帆数据治理2.0 DAMA 数据架构 数据建模与设计 数据存储与操作 DAMA:数据治理是对数据资产管理行使权利和控制的活动集合(规划、监督和执行) 数据质量管理 数据治理 元数据管理 数据安全 2022数字+大会 数据集成和互操作 重点: •DAMA规定了数据治理的11个数据管理的职能,告诉我们数据治理应该干什么事情,对数据治理有一个很清晰的边界 数据仓库和商务智能 参考数据和主数据管理 文件和内容管理 DCMM 数据 应用 战略 数据生 存周期 数据 安全 DCMM 数据 治理 数据 质量 数据 标准 数据 架构 数据 2022数字+大会 DCMM数据管理能力成熟度评估模型,由国家工信部、国家标准化委员会组织编写,是有个数据治理领域的国家标准。 重点: •给出了数据治理的评估方法 企业全域数据治理 面 向业务系统数据治理 解决业务系统核心数据跨系统、 跨流程、跨业务的一致性、正确性和权威性 2022数字+大会 网易数帆对数据治理理解 业务中台 主数据管理 (MDM) 面向分析数据治理 维度建模 数据安全 数据目录 数据服务 数据标准 标签管理 指标管理 元数据管理 数据质量 数据中台 网易数帆数据治理2.0 数据建 模 数据服 务 数据质 量 基于ROI数据资产 Data Fusion 元数据 指标管 理 数据安 全 数据标 准 2022数字+大会 网易数帆数据治理的方法论,将传统数据治理的方法融入数据开发的全生命周期中,基于DataOps全生命周期数据开发底座,采用数据中台的数据架构,结合了网易数帆特色的基于ROI的数据资产化实践,我们将其称为数据治理2.0 核心亮点: •开发与治理一体化 •与BI的无缝协同 •采用DataOps的数据开发底座 •数据中台架构,解决烟囱式数据开发 •基于ROI的数据资产沉淀 核心亮点1:开发与治理一体化 •核心理念:“先设计、后开发,先标准,后建模” 数据标准 数据安全 需求 数据抽取 数据探查 数据建模 数据开发 数据稽核 任务发布 持续运维 2022数字+大会 数据标准是解决数据质量问题的最根本的解决方法 2022数字+大会 核心亮点2:数据中台架构 数据服务化 高复用、规范公共层模型 统一指标管理体系 数据中台架构 元数据发布 度量 维度 元数据扫描 核心亮点3:数据治理与BI的无缝协同 Clickhouse Cube推荐 Cube管理 构建Cube 数据抽取 自助取数(拖拽取数) BI(可视化图表) 物化视图 HiveCatalog IntegratedLayer MySQLCatalog GreenplumCatalog relationships Hive MySQL Greenplum 模型设计 元数据采集 业务过程 元数据注册 2022数字+大会 圈选数据集 亮点4:企业一站式数据资产门户 2022数字+大会 •一站式企业数据资产消费 核心亮点5:基于DataOps开发底座 DataOps Continuous Integration ContinuousDelivery Continuous Deployment 编码 编排 测试 代码 审查 发布 审核 部署 上线 2022数字+大会 •数据开发IDE •依赖调度 •数据比对 •SQLScan •发布包 •基于优先级资源调度 •多版本管理(含调度)•智能任务依赖推荐 •数据沙箱 •CodeReivew •全链路影响分析 •智能诊断 •UDFStudio •任务模板(组件库) •参数组 •资源组 •自动化回归 •数据形态探查 •自定义审核流程 •基线预警 •SLA •效能工具 •流程协作 核心亮点6:资产精细化管理 2022数字+大会 •核算每个任务、查询、表的计算、存储资源消耗,折算到钱,且分摊到每个数据报表,数据服务API应用层面 •“剥洋葱”式数据下线,从下游不再使用的数据应用开始,逐层向上游任务和数据下线归档 •任务和查询成本预估,对于高消耗任务和查询,进行审批管控 2022数字+大会 核心亮点7:数据资产360 01传统数据治理面临的挑战 2022数字+大会 目录 CONTENTS 02网易数帆数据治理2.0 03数据治理实践 数据治理实践之东北证券 2022数字+大会 借助网易数帆EasyData数据开发与治理平台,实现了“数据开发与治理的一体化”,从数据生产源头出发,遵循“先设计,后开发,先标准,后建模”的理念,确保开发出来的数据就是遵循规范和标准的,实现了数据的长效治理,解决了多年数据治理难落地,效果差的难题。通过数据资产消费平台,一线业务人员可以轻松实现数据资产,找得到、看得懂、信得过! 标准 质量 安全 通过打通数据标准和数据建模工具,在模型设计过程中就可以直接完成数据标准的落标。东北证券注册元数据2814项。 通过打通数据质量和数据标准工具,根据数据标准直接生产数据质量稽核规则应用在模型上。东北证券生成数据质量稽核规则2890项。 通过打通数据安全和数据标准工具,根据数据标准中定义的数据敏感等级,生成数据脱敏规则直接应用在模型上。东北证券生成脱敏规则1323项。 数据治理实践之浙江电信 浙江电信借助网易数帆EasyData数据开发与治理平台,构建了逻辑数据湖,将数据中台构建在跨平台的逻辑聚合层之上,实现了多平台的统一管理。与此同时,发布了数据入湖标准,实现了数据“入湖有标准,出湖可管控”的目标。 逻辑统一,物理分散 规范入湖 出湖管控 2022数字+大会 将物理分散的Vertica、CDH、NDH等不同平台上的数据构建逻辑统一的数据中台。 发布6项数据虚拟入湖标准,浙江电信完成86个核心系统的接入,沉淀数据资产4144项。 通过数据服务,实现数据出口的统一管控,浙江电信发布数据服务 API300+。 2022数字+大会 新书预告《从数据中台到数据生产力》 2022数字+大会 THANKS 2022数字+大会 THANKS 2022数字+大会 THANKS