金融级数据研发治理一体化平台实践 廖晓格 廖晓格长期大数据平台、AI平台建设经验 •平安银行数据资产管理及研发中心团队负责人,负责大数据基础平台、数据中台、BI及AI中台能力的建设 •曾就职于PPTV、ebay、携程、华为,负责大数据平台应用的研发工作 目录 一、数据治理传统模式痛点二、数据治理核心目标 三、开发治理一体化解决方案四、未来展望 金融数据的特点及治理挑战 大数据服务应用数据质量缺乏必要的监控和告警 各业务的数据存在孤岛数据多份存储,加大数据成本 PB级别大数据海量存储和计算,造成极高的负载,影响系统稳定性,批量时效难以有效保障大数据测试数据难造,生产数据脱敏到测试环境又有安全隐患,敏感数据多,安全管控难 数据流量洪峰不断刷新记录,如何提升实时化能力 虽然提供了各种线上平台和工具,但思维和动作还未全面数据化 安全提效降本 包袱? 资产! 金融数据治理的价值 存储成本剧增 计算负载极高 A降低成本 数据治理 B提升数据加工效率 数 数据安全隐患 不可靠决策 …… 数据C 治理 D 改善数据质量据 治 理价 控制数据风险值 数据 治理E 赋能管理决策 很多企业的数据治理管理规范只能停留于纸面和规范文字层面,没有治理工具支撑 2、治理措施落地难 数据治理传统模式的痛点 •传统模式下的数据治理工作更多参考DAMA或者DCMM理论体系推行,但公司内部从哪里入手、以什么样的路径推进目前并没有结合自身企业和行业特点制定数据治理的标准体系,涉及效率、技术、管理、安全等,导致治理效果一直不佳,主要体现在以下几个方面: 通过事后治理,在短期内能看到一定成果,但因为没有融入到日常数据生产流程中,导致治理效果不可持续,不能长久解决治理痛点 1、运动式治理 治理成效难量化、可视化,治理推进工作难度会倍数加大 3、数据治理成效不可量化 目录 一、数据治理传统模式痛点二、数据治理核心目标 三、开发治理一体化解决方案四、未来展望 数据治理的目标是什么 •金融行业数据治理核心目标在于兼顾安全、成本并最大化数据价值,因此数据治理需要解决四个使命: 治理线上化 治理标准化 治理智能化 数据成本 治理DAMA方法论与工具结合,将治理方法论以及行内 所有规范,通过平台工具结合,提供工具化的治理能 力,实现治理线上化; 全周期治理解决方案,数据治理涉及多个流程、多个平台、多方不同角色,整合各 方在平台提供统一治理能 力,实现治理标准流程; 集成规则策略,可以通过自动化治理能力识别安全风险、敏感数据,通过内置规 则和策略提升治理效果; 数据价值最大化,包括通过数据生命周期、成本/价值 评估逆向推动成本治理,释 放数据价值、降低数据应用成本 沉淀数据资产 提供高可用的数据服务 数据资产分类(技术视角) 数据资产分类(业务视角) 表资产 指标资产 标签资产 特征资产 模型资产 营销 运营 风险 财务 治理目标 数据治理体系建设 治理全景 健康分 SLA 治理考核 资产目录 资产服务 资产搜索 资源优化 数据质量 资产详情 低价值下线 高价值补充 SLA管理 SLA 基线预警 SLA复盘 一套资产 配置治理检查项 治理范畴(规则) 标准治理对象模版 治理拦截(优化) 开发后检查 数据开发 长效运营 数据资产成本/价值评估 规范检查 质量检查 价值评估 更多 开发前检查 规范性检查 质量内容检查 数据健康运营 低价值/高成本治理 一套治理 1.数据需求环节 影响分析 数据架构评审 2.数据研发环节 3.指标定义环节 4.数据应用 元数据治理 血缘治理 规范定义 质量治理 数据服务 属性定义 度量定义 业务范围 指标服务 数据报表 数据特征 数据服务 一个平台 方案与规划 一套 流程与规范 标准制定数据资产治理管控方案,包括资产目录设计、 制定数据治理相关规范,流程、治理引擎和标 资产范围、资产治理运营等准 目录 一、数据治理传统模式痛点二、数据治理核心目标 三、开发治理一体化解决方案四、未来展望 数据开发治理一体化解决方案 开发治理核心能力 DataOps全周期数据研发将数据研发过程标准化,引入CI/CD方法融入数据研发流程; 数据治理嵌入研发过程改变以往先产生后治理的 流程逻辑,将治理规范融入数据研发流程; 先设计再开发服务 以数据服务和数据指标驱动 数据研发过程,遵循先设计再研发的治理设计理念; 数治理技术工具 面向数据自动校验端,提供 数据质量/数据血缘/元数据管理/规范检查/开发测试一体/能力服务,实现线上数据的自动检核; 建 •将数据研发与数据治理方法论结合,提供开发治理一体化解决方案平台,目标实现数据安全可控、高质量,最终驱动数据在业务场景释放更大价值 数据治理应用场景 自助数据分析低代码数据API构 数据报表数据建模 元数据管理 数据治理技术工具 数据血缘数据质量 开发测试一体化 湖仓一体存储层 数湖存储格式(Iceberg) 数据缓存与加速(JuiceFS) 分布式文件系统(HDFS) 数据规范设计 数 据数据建模指标设计安 全 治检查规范设计 理 湖 仓一体存储层 数据标准数仓规划 基于dataops的全数据研发成本 流批一体研发IDE价 值评 数据研发规范检查数估 据体 发 流批数据研发研系 运 流批数据集成营 数据研发治理一体化平台全流程 •统一数据研发全周期流程,标准化数据建模过程,降低模型研发过程中的人为风险同时,提升整个数据研发效率 业务元数据资产 数仓模型资产 数仓表资产 指标资产 API资产 数据采集 数据加密 模型映射 数据开发 数据测试 数据上线 指标定义 指标服务 API加工 数据资产平台 研发流程 数据同步 配置数据源 敏感数据标准 异构数据采集 敏感数据发现 采集频率设定 敏感数据加密 数仓加工 数据开发 案例数据 UAT 验证 维度/码值统一 映射 语法校验 执行集 自动发布 调度与监控 测试报告 数据主题 指标加工 对象、维度、度量定义 指标发布服务 业务/口径定义 元数据服务 指标一致性检测 OneService服务配置 统一查询 统一存储 数据开发治理一体化解决方案-DataOps全周期开发治理能力 •将数据治理融入数据研发的全生命周期流程中,在数据开发过程中完成全域数据治理工作,最终实现数据开发过程中自动化治理的管控目标 设计阶段 研发阶段 发布阶段 运营阶段 数据标准 模型设计 数据集成 数据清洗 数据研发 架构规范 治理规范数据标准 元数据规范 维度表 实时表 字段类型映射 敏感自动识别 物理加密 逻辑脱敏 数据清洗 技术元数据 管理元数据 业务元数据 元数据管理 数据运营 价值评估 成本计算 数据数据 测试发布 质量规则 数据质量 质量校验通过 ROI评估 数据开发治理一体化解决方案-元数据治理 •数据模型设计阶段,元数据治理是核心治理对象,遵循数仓层级、命名规范、数据标准落标等通过开发治理工具执行,开发治理一体化平台针对事前、事后的自动盘点运营; 元数据应用 元数据服务数据安全数据权限元数据考核 元数据逻辑层 元数据采集 资产运营 目录挂载 资产分类资产生命周期 2 业务元数据 1治理元数据注册 元数据发布 资产管理 资产打标复核属性管理数据地图 技术元数据 元数据扫描并自动采集1 元数据 开发治理一体化平台数湖MetaStore 数据命名标准 数仓分层 数据认责 数据码值落标 元数据规范批流统一存储Iceberg(批流统一schema) 产生架构规范 分布式文件系统HDFS 检查2 数据开发治理一体化解决方案-元数据治理-强制检查项(举例) •针对于数据治理中基础元数据管理,基于行内统一数据标准治理规范,在开发过程中实现对于元数据管理的各项自动落标,确保元数据可用、可管、可控; 检查1 基于数仓建设标准,平台层面强制约束DWD/DWS/ADS分层的数据研发团队,通过平台约束分层落地 检查3 检查4 数据研发过程中明确分配归属部门管理命名规范自动化,包括表名和字段名码值落标线上化,开发过程中实现码值落标 数据开发治理一体化解决方案-血缘治理能力 •数据研发人员只需关注将自身需求的业务逻辑转换为开发逻辑,由开发治理平台自动进行脚本解析并生成血缘关系,同步实现血缘链路、血缘层级依赖、数仓分层依赖等治理事项自动化检查,确保数据血缘健康运营; 编码阶段 SQL 血缘解s析ar阶k Spark hook 段血缘应用阶段 引擎层(hive/spark/presto) SQLkafka Lineage hHoiovek 血缘治理阶段 开发过程中血缘治理运营过程中血缘治理 •层级依赖检查:数据研发作业提交之后,依据自动计算的血缘分析与DWD层血缘层级,层级太深禁止上线; •分层依赖层面:依据ODS-DWD-ADS分层规范,禁止进行跨层依赖,同时ADS内私有域集市层禁止互相依赖; •运营时效检查:实时分析层级依赖作业的调度运行时间,根据高保作业的时效要求,线上分析延迟影响; •运营成本治理:依据作业互相依赖以及访问热度,自动针对冷作业进行识别并进行下线,降低集群存储和计算成本; 2.并发度调度管控 数据开发治理一体化解决方案-自动调度能力 3.自定义条件调度 自定义调度属性 自定义调度属性 执行调度检查 1.血缘依赖调度 •开发治理一体化平台基于研发作业的依赖血缘,同时支持数据研发人员人工添加自定义依赖,实现对于调度的整体自动化平台管控,屏蔽人为控制影响,提升数据运行的自动性 数据开发治理一体化解决方案-质量治理能力 •数据质量已经成为银行数据治理的核心组成部分,从治理视角而言,建立完整全流程的数据质量体系,及时发现质量问题->实时预警属主修复->事后复盘增强测试发布环节检测、提升银行数据整体质量,提供更精准的决策分析数据; 事前-质量核验规则 事后-异常质量问题追踪复盘 1)表粒度规则监控 2)字段粒度规则监控 3)自定义规则监控 事中-质量核验 实时质量异常阻断(依据血缘依赖阻断下游自动调度) 通过数据血缘关系,实时呈现数据调度进度 基于过程质量问题,工单追踪异常整改 数据开发治理一体化解决方案-开发测试一体化 •为解决大数据数据质量测试痛点,在测试环境无法完全复现生产问题,生产数据脱敏到测试环境仍有安全隐患,因此需要构建数据研发测试一体化平台,完善数据研发流程,满足监控合规的评审需求,数据需求闭环管理,数据开发、测试、变更流程统一管理,并和数据监控规则打通,保证全流程质量闭环 流程分级别 管理流程定制 质量门槛 验收 需求评审测试验收UAT/业务 缺陷标注 测试自动执行 效率优化 结果大盘 聚合报告分析 对接系统 用户&权限 基础数据规则 场景建模 场景自适应数据模型(待建) 一键UM登录 核心单/ 功能双表 、字段级 日期型类型 数值型类型 枚举型类型 字符型自 义 类型定 资损监管 模型模型 风控营销 模型模型 机器自适应场景精准学习算法模拟测试 数据权限自动识别 数据研发平台 作业调度/用例执行 脱敏系统 数据准备 ROUTER 权限系统 Jira需求管理 信用卡集市 汽融集市 基础集市 风险 消金 私行 … DQM数据监控 数据开发治理一体化解决方案-数据安全治理 •从事前、事中、事后分别管控数据安全。以“事中数据脱敏”为例,是通过在SQL/作业埋点用户帐号,分析SQL/Job对应的元数据字段,判断用户权限,返回用户对应的脱敏数据。 事前事中事后 事前制度建设:数据安全“制度”先行,为此我行修改制定了“平安银行数据安全管理办法(2.0版,2019年)”; 事中技术管控:采用“数据加密”、“数据脱敏”、“敏感客群保护”、”智能阻断”、“数据外发”等手段构筑强固的数据安全保护伞; 事后监控审计:基于规则引擎建立数据访问审计平台——实时的\自动+人工的识别可能的异常访问; 客户端 SAS A