EB级数仓都在用的算子级血缘如何实现主动数据治理 演讲人:周泉 Aloudata(大应科技)联合创始人&CTO 自我介绍 INTRUDUCTION 周泉 浙江大应科技有限公司联合创始人&CTO 曾任蚂蚁集团数据平台主架构师,蚂蚁数据治理一号位、蚂蚁大数据安全合规技术一号位。从零构建了蚂蚁实时智能决策、主动数据治理、大数据安全合规技术体系。 Contents 目录 主动数据治理,数据管理新范式 基于算子级血缘的指标链路治理实践 基于算子级血缘的主动模型治理探索 01 主动数据治理 数据管理的新范式 数据管理复杂度正在乘数增长 数据生态体系复杂度=C*E*P C-企业用户/客户数 CXO 数据量爆炸 Marketing/OperationManager E-企业数字公民数 数据需求爆炸 trino P-基础设施的复杂度 数据源爆炸 BI 数据平台 � 效能 X � 性能 X � 质量 X � 成本 X � 安全 X � 合规 DataEngineerDatascientist 复杂度剧增之下面临的数据管理挑战 看不清 •数据加工链路长,指标口径溯源费时费力 •表血缘粒度太粗看不清,异常根因定位慢 •表血缘发散太快,变更影响评估噪音多 管不住 •业务需求太急,应用层无序建设、中间层空心化 •业务用数引发链路不断增长、成本剧增 •管控滞后,质量风险、合规风险发现总在事后 治理难 •问题模型、重复数据盘点难,链路分析工作量大 •数据消费场景错综复杂,下游迁移工作量大 •上下游协协同本高,新老模型切换推不动 某头部险企完成重点指标口径盘点高达6000人/日 某头部互联网企业 年均数据增长高达60%+,但稳定可用数据不足20% 某头部银行 100层以上数据链路上千条 管理复杂度激增,需要有更精细、更智能的数据管理手段 “Datamanagementhasbegunashiftfrommanagingthedata ” contenttofocusingonmetadata. Gartner MarketGuideforActiveMetadataManagement2022 DataFabric 面向未来的数据管理架构白皮书 持续处理和分析元数据,深度刻画数据 面向行动,提供智能决策建议 与工具及流程深度集成,促进管理与协作 “ Activemetadatamanagementisasetofcapabilitiesthatenablescontinuousaccessandprocessingofmetadatathatsupportongoinganalysisoveradifferentspectrumofmaturity,usecasesandvendorsolutions. Activemetadataoutputsrangefromdesignrecommendationsbaseduponexecutionresultsandreportsofruntimestepsthrough,andindicatorsof,businessoutcomesachieved. ” Theresultingrecommendationsfromthoseanalyticsareissuedasdesigninputstohumansorsystem-levelinstructionsthatareexpectedtohavearesponse. Gartner BigMeta基于算子级血缘的主动数据治理平台 主动元数据服务 AI-BasedMetadataService 模型设计助手 元数据图谱 ConnectAllMetadata 指标判重助手 链路治理助手 异常诊断助手 算子级血缘 HighAccuracy 模型迁移助手 SQL联想建议 持续处理和分析元数据,深度刻画数据 面向行动,提供智能决策建议 与工具及流程深度集成,促进管理与协作 AloudataBigMeta ActiveMetadataManagementPlatform 算子级血缘,复杂数据链路纤毫毕现 端到端列依赖可视 精细评估变更影响 字段口径一目了然 99%SQL解析准确率 <5min变更感知 1M表1天完成血缘构建 02 基于算子级血缘的 指标链路治理实践 算子级血缘实现自动且持续地指标盘点及链路保障 业务背景: 某金融机构数仓数据表规模已达数十万,数据质量问题频发,其中监管报送和高管指标链路问题尤为突出。 为保障重点数据链路,该企业过去始终通过人工逐个梳理指标计算口径和加工链路,经盘点的监管数据链路末端清单表上百,涉及全链路字段数万,人工盘点工作量高达数千人/日。 核心诉求: 1.梳理监管链路指标上游链路依赖,加强重点链路数据质量及时效保障 2.厘清指标加工链路每个节点的字段口径,登记整理形成指标百科 3.元数据持续保鲜,适应未来变更 治理挑战 1 指标加工链路长,口径梳理工作量大 2 表级血缘粒度太粗追溯结果保障面太宽 3口径梳理靠人工元数据不保鲜 单字段order_amt的SQL口径抽取 (对表处理的原始脚本进行相关性裁剪) 单字段order_amt的语义化口径解析 (穿透到真正数据来源,还原加工逻辑本质,辅助判断过滤条件) 统一抽象语法树 关系代数算子树 作用域及依赖分析 算子裁剪 ①自动盘点:基于算子级血缘的字段口径自动抽取 列口径摘要 ADM_T1.C1 ADM_T2.C2 DWS_T3.C3 DWD_T4.C4 DWD_T6.C6 ODS_T5.C5 ODS_T7.C7 ②自动盘点:字段口径跨层溯源,自动梳理指标体系 RawSQL Scripts 插入列的多段SQL技术口径提取 精细判定分类 指标分组去重 指标口径溯源 ADMT1.C1 =Filter(DWS_T3.C3,DWS_T3.type=2) =Filter(SUM(DWD_T4.C4)/SUM(DWD_T6.C6),DWD_T4.type=2) =Filter(SUM(ODS_T5.C5)/SUM(ODS_T7.C7),ODS_T5.type=2) ADMT2.C2 =Filter(SUM(ODS_T5.C5)/SUM(DWD_T6.C6),ODS_T5.type=1) =Filter(SUM(ODS_T5.C5)/SUM(ODS_T7.C7),ODS_T5.type=1) ③精准保障:精细识别业务基线,精准控制保障范围 对消费场景进行业务视角的分类分级,沿着精细化血缘向上游进行标签扩散,上游资产按照下游传递的业务分类分级标签打标,形成“精细化”的业务基线,指导基线链路上的资产变更和保障工作。 用户可以使用标签辅助进行影响面分析,快速定位关注的业务场景或者等级 数据源 数据加工处理链路 指标结果表 影响面分析 col1 col2 col3 col1 col2 col3 col1 col2 col3 col1 col2 col3 col1 col2 col3 业务分类分级标识与标签智能扩散,形成业务基线基于标签筛选,对影响面做智能裁剪,突出重点对象 业务作战地图 col1 col2 col3 业务系统1 col1 col2 col3 业务系统2 col1 col2 col3 主数据系统 业务系统3 KPI指标:累计保费 KPI指 标 KPI指 col1 col2 col3 col1 col2 col3 标 col1 col2 col3 KPI指 标 col1 col2 col3 col1 col2 col3 KPI指 col1 col2 col3 标 从下游到上游的溯源分析 KPI指 col1标 col2 col3 KPI指 col1 col2 col3 标 col1 col2 col3 KPI指 标 运营看板 管理驾驶舱 财务报表 03 基于算子级血缘的 主动模型治理探索 重复加工 低效加工 基于算子级血缘实现主动模型治理 x CASE1 套娃模式 同一主体反复拼接维度 加工效率低,链路长,数据资产冗余度高 CASE2 重复计算 同一资产多个相似的下游任务 加工逻辑片段重复开发和重复计算代价大 脚本1 脚本2 相似片段 CASE3 烟囱模式 多个相似的加工链路 链路冗余,重复计算和存储,容易发生口径不一致 CASE4 邮差模式 不合理地依赖链路下游节点 无意义的长链路依赖,带来下游节点时效问题 简单加工 数据链路中的“坏味道”引发数据无序膨胀、链路不断加长、重复数据爆炸 主动治理 1 主动识别链路“坏味道” 2 自动生成模型重构建议 3 智能检测下游不合理引用并生成SQL建议 基于算子级血缘实现模型问题自动发现及治理建议 全局血缘网络 局部算子网络 1判重 2匹配 3分析 4建议 第一步:基于数据血缘多轮扩散,根据溯源口径和数据特征,快速发现相似资产,并进行分组。 第二步:基于判重结果数据,构建疑似问题链路的局部血缘图;通过子图匹配,确定疑似“坏味道”模式。 第三步:基于圈定的问题链路,构建标准化、归一化的抽象算子网络,精细化分析链路优化机会,生成整改优化方案。 第四步:基于基数及代价预估,评估“等价替换、维度替换、链路短路”等整改方案的可行性,产出高置信的整改优化建议 相似资产集合1 AGG 条件补偿条件+汇总补偿 JOIN 套娃模式 T1 T2 T3 JOIN FILTER C JOIN SCAN SCAN SCAN SCAN SQL研发智能建议 数据源 Apache HivePostgreSQL AllMetadata High-Accuracy AI-Based AloudataBigMeta主动元数据治理平台 数据发现与资产盘点 自动盘点,百万数据1天盘清 主动模型治理 建模Copilot,10倍研发效率提升 数据可观测性 精准定位,5分钟数据异常归因 安全合规治理 实时追踪,秒级感知合规风险 主动元数据服务 模型需求盘点|异常根因定位|问题资产发现|智能SQL建议|主动链路监控 算子级血缘图谱 字段口径|跨层口径溯源|链路比对|溯源分析|影响评估 BigMeta算子级SQL解析技术 元数据知识图谱 表关系挖掘|主键推断|粒度推断|用数行为挖掘|业务语义分类|DataRank BigMeta图谱构建及知识推理引擎 元数据湖 BigMeta统一元数据采集 —THANKS— Aloudata官网:https://www.aloudata.com