热门搜索：

EB级数仓都在用的算子级血缘如何实现主动数据治理

信息技术2023-07-13DataFunSummit2023：数据治理在线峰会艳***

AI智能总结

主动数据治理，数据管理新范式

数据管理复杂度正在乘数增长

企业用户/客户数：不断增加
质量数据平台效能：不断提升
性能成本：不断优化
安全合规：持续加强
基础设施的复杂度：持续增加
数据生态体系复杂度：C * E * P（企业用户数 * 数据公民数 * 基础设施复杂度）
数据量爆炸：数据量急剧增长
数据需求爆炸：数据需求快速增长
数据源爆炸：数据源数量增多

复杂度剧增之下面临的数据管理挑战

看不清：数据加工链路长，指标口径溯源费时费力
管不住：业务需求急促，应用层无序建设、中间层空心化
治理难：问题模型、重复数据盘点难，链路分析工作量大
成本高：数据消费场景错综复杂，下游迁移工作量大

基于算子级血缘的指标链路治理实践

算子级血缘

高精度：99% SQL解析准确率
快速构建：1M 表 1 天完成血缘构建
变更感知：<5 分钟感知变更

核心诉求

自动盘点：梳理监管链路指标上游链路依赖，加强重点链路数据质量及时效保障
字段口径清晰：厘清指标加工链路每个节点的字段口径，登记整理形成指标百科
元数据持续保鲜：适应未来变更指标加工链路

实践案例

金融机构：数仓数据表规模已达数十万，数据质量问题频发
核心诉求：
- 梳理监管链路指标上游链路依赖
- 厘清指标加工链路每个节点的字段口径
- 元数据持续保鲜

自动盘点

字段口径自动抽取：基于算子级血缘的字段口径自动抽取
语义化口径解析：穿透到真正数据来源，还原加工逻辑本质
统一抽象语法树：关系代数算子树作用域及依赖分析

精细保障

精准识别：基于算子级血缘的业务基线识别
精准控制：精准控制保障范围

基于算子级血缘的主动模型治理探索

主动模型治理

低效加工：同一主体反复拼接维度加工效率低
冗余度高：链路长，数据资产冗余度高
重复计算：多个相似的加工链路链路冗余，重复计算和存储
口径不一致：不合理地依赖链路下游节点

实现方式

自动识别：链路“坏味道”自动识别
智能检测：生成SQL建议
主动治理：生成整改优化方案

具体步骤

判重匹配分析：基于数据血缘多轮扩散，快速发现相似资产，并进行分组
局部血缘图构建：基于判重结果数据，构建疑似问题链路的局部血缘图
问题链路圈定：构建标准化、归一化的抽象算子网络
整改优化方案生成：基于基数及代价预估，评估整改方案可行性

Aloudata BigMeta 主动元数据治理平台

数据发现与资产盘点：自动盘点，百万数据1天盘清
模型需求盘点：异常根因定位，问题资产发现，智能SQL建议
链路比对：溯源分析，影响评估
全局血缘网络：精准定位，5分钟数据异常归因
安全合规治理：实时追踪，秒级感知合规风险

总结

Aloudata BigMeta 通过算子级血缘实现了主动数据治理，有效解决了复杂数据管理挑战，提升了数据管理和治理的效率和效果。

EB级数仓都在用的算子级血缘如何实现主动数据治理演讲人：周泉 Aloudata（大应科技）联合创始人&CTO 自我介绍 INTRUDUCTION 周泉浙江大应科技有限公司联合创始人&CTO 曾任蚂蚁集团数据平台主架构师，蚂蚁数据治理一号位、蚂蚁大数据安全合规技术一号位。从零构建了蚂蚁实时智能决策、主动数据治理、大数据安全合规技术体系。 Contents 目录主动数据治理，数据管理新范式基于算子级血缘的指标链路治理实践基于算子级血缘的主动模型治理探索 01 主动数据治理数据管理的新范式数据管理复杂度正在乘数增长数据生态体系复杂度=C*E*P C-企业用户/客户数 CXO 数据量爆炸 Marketing/OperationManager E-企业数字公民数数据需求爆炸 trino P-基础设施的复杂度数据源爆炸 BI 数据平台 � 效能 X � 性能 X � 质量 X � 成本 X � 安全 X � 合规 DataEngineerDatascientist 复杂度剧增之下面临的数据管理挑战看不清 •数据加工链路长，指标口径溯源费时费力 •表血缘粒度太粗看不清，异常根因定位慢 •表血缘发散太快，变更影响评估噪音多管不住 •业务需求太急，应用层无序建设、中间层空心化 •业务用数引发链路不断增长、成本剧增 •管控滞后，质量风险、合规风险发现总在事后治理难 •问题模型、重复数据盘点难，链路分析工作量大 •数据消费场景错综复杂，下游迁移工作量大 •上下游协协同本高，新老模型切换推不动某头部险企完成重点指标口径盘点高达6000人/日某头部互联网企业年均数据增长高达60%+，但稳定可用数据不足20% 某头部银行 100层以上数据链路上千条管理复杂度激增，需要有更精细、更智能的数据管理手段 “Datamanagementhasbegunashiftfrommanagingthedata ” contenttofocusingonmetadata. Gartner MarketGuideforActiveMetadataManagement2022 DataFabric 面向未来的数据管理架构白皮书持续处理和分析元数据，深度刻画数据面向行动，提供智能决策建议与工具及流程深度集成，促进管理与协作 “ Activemetadatamanagementisasetofcapabilitiesthatenablescontinuousaccessandprocessingofmetadatathatsupportongoinganalysisoveradifferentspectrumofmaturity,usecasesandvendorsolutions. Activemetadataoutputsrangefromdesignrecommendationsbaseduponexecutionresultsandreportsofruntimestepsthrough,andindicatorsof,businessoutcomesachieved. ” Theresultingrecommendationsfromthoseanalyticsareissuedasdesigninputstohumansorsystem-levelinstructionsthatareexpectedtohavearesponse. Gartner BigMeta基于算子级血缘的主动数据治理平台主动元数据服务 AI-BasedMetadataService 模型设计助手元数据图谱 ConnectAllMetadata 指标判重助手链路治理助手异常诊断助手算子级血缘 HighAccuracy 模型迁移助手 SQL联想建议持续处理和分析元数据，深度刻画数据面向行动，提供智能决策建议与工具及流程深度集成，促进管理与协作 AloudataBigMeta ActiveMetadataManagementPlatform 算子级血缘，复杂数据链路纤毫毕现端到端列依赖可视精细评估变更影响字段口径一目了然 99%SQL解析准确率 <5min变更感知 1M表1天完成血缘构建 02 基于算子级血缘的指标链路治理实践算子级血缘实现自动且持续地指标盘点及链路保障业务背景：某金融机构数仓数据表规模已达数十万，数据质量问题频发，其中监管报送和高管指标链路问题尤为突出。为保障重点数据链路，该企业过去始终通过人工逐个梳理指标计算口径和加工链路，经盘点的监管数据链路末端清单表上百，涉及全链路字段数万，人工盘点工作量高达数千人/日。核心诉求： 1.梳理监管链路指标上游链路依赖，加强重点链路数据质量及时效保障 2.厘清指标加工链路每个节点的字段口径，登记整理形成指标百科 3.元数据持续保鲜，适应未来变更治理挑战 1 指标加工链路长，口径梳理工作量大 2 表级血缘粒度太粗追溯结果保障面太宽 3口径梳理靠人工元数据不保鲜单字段order_amt的SQL口径抽取（对表处理的原始脚本进行相关性裁剪）单字段order_amt的语义化口径解析（穿透到真正数据来源，还原加工逻辑本质，辅助判断过滤条件）统一抽象语法树关系代数算子树作用域及依赖分析算子裁剪 ①自动盘点：基于算子级血缘的字段口径自动抽取列口径摘要 ADM_T1.C1 ADM_T2.C2 DWS_T3.C3 DWD_T4.C4 DWD_T6.C6 ODS_T5.C5 ODS_T7.C7 ②自动盘点：字段口径跨层溯源，自动梳理指标体系 RawSQL Scripts 插入列的多段SQL技术口径提取精细判定分类指标分组去重指标口径溯源 ADMT1.C1 =Filter(DWS_T3.C3，DWS_T3.type=2) =Filter(SUM(DWD_T4.C4)/SUM(DWD_T6.C6),DWD_T4.type=2) =Filter(SUM(ODS_T5.C5)/SUM(ODS_T7.C7),ODS_T5.type=2) ADMT2.C2 =Filter(SUM(ODS_T5.C5)/SUM(DWD_T6.C6)，ODS_T5.type=1) =Filter(SUM(ODS_T5.C5)/SUM(ODS_T7.C7),ODS_T5.type=1) ③精准保障：精细识别业务基线，精准控制保障范围对消费场景进行业务视角的分类分级，沿着精细化血缘向上游进行标签扩散，上游资产按照下游传递的业务分类分级标签打标，形成“精细化”的业务基线，指导基线链路上的资产变更和保障工作。用户可以使用标签辅助进行影响面分析，快速定位关注的业务场景或者等级数据源数据加工处理链路指标结果表影响面分析 col1 col2 col3 col1 col2 col3 col1 col2 col3 col1 col2 col3 col1 col2 col3 业务分类分级标识与标签智能扩散，形成业务基线基于标签筛选，对影响面做智能裁剪，突出重点对象业务作战地图 col1 col2 col3 业务系统1 col1 col2 col3 业务系统2 col1 col2 col3 主数据系统业务系统3 KPI指标：累计保费 KPI指标 KPI指 col1 col2 col3 col1 col2 col3 标 col1 col2 col3 KPI指标 col1 col2 col3 col1 col2 col3 KPI指 col1 col2 col3 标从下游到上游的溯源分析 KPI指 col1标 col2 col3 KPI指 col1 col2 col3 标 col1 col2 col3 KPI指标运营看板管理驾驶舱财务报表 03 基于算子级血缘的主动模型治理探索重复加工低效加工基于算子级血缘实现主动模型治理 x CASE1 套娃模式同一主体反复拼接维度加工效率低，链路长，数据资产冗余度高 CASE2 重复计算同一资产多个相似的下游任务加工逻辑片段重复开发和重复计算代价大脚本1 脚本2 相似片段 CASE3 烟囱模式多个相似的加工链路链路冗余，重复计算和存储，容易发生口径不一致 CASE4 邮差模式不合理地依赖链路下游节点无意义的长链路依赖，带来下游节点时效问题简单加工数据链路中的“坏味道”引发数据无序膨胀、链路不断加长、重复数据爆炸主动治理 1 主动识别链路“坏味道” 2 自动生成模型重构建议 3 智能检测下游不合理引用并生成SQL建议基于算子级血缘实现模型问题自动发现及治理建议全局血缘网络局部算子网络 1判重 2匹配 3分析 4建议第一步：基于数据血缘多轮扩散，根据溯源口径和数据特征，快速发现相似资产，并进行分组。第二步：基于判重结果数据，构建疑似问题链路的局部血缘图；通过子图匹配，确定疑似“坏味道”模式。第三步：基于圈定的问题链路，构建标准化、归一化的抽象算子网络，精细化分析链路优化机会，生成整改优化方案。第四步：基于基数及代价预估，评估“等价替换、维度替换、链路短路”等整改方案的可行性，产出高置信的整改优化建议相似资产集合1 AGG 条件补偿条件+汇总补偿 JOIN 套娃模式 T1 T2 T3 JOIN FILTER C JOIN SCAN SCAN SCAN SCAN SQL研发智能建议数据源 Apache HivePostgreSQL AllMetadata High-Accuracy AI-Based AloudataBigMeta主动元数据治理平台数据发现与资产盘点自动盘点，百万数据1天盘清主动模型治理建模Copilot，10倍研发效率提升数据可观测性精准定位，5分钟数据异常归因安全合规治理实时追踪，秒级感知合规风险主动元数据服务模型需求盘点|异常根因定位|问题资产发现|智能SQL建议|主动链路监控算子级血缘图谱字段口径|跨层口径溯源|链路比对|溯源分析|影响评估 BigMeta算子级SQL解析技术元数据知识图谱表关系挖掘|主键推断|粒度推断|用数行为挖掘|业务语义分类|DataRank BigMeta图谱构建及知识推理引擎元数据湖 BigMeta统一元数据采集 —THANKS— Aloudata官网：https://www.aloudata.com

点击免费查看完整报告