大淘宝数据模型治理 演讲人:乔光阿里巴巴数据研发专家 Contents 目录 背景及问题解决方案模型治理未来规划 01背景及问题 背景及问题-背景 效率 快 成本质量 省稳 2020 数字化运营 角色增多 2022 规模稳定性 消费效率 背景及问题-整体情况 ①数据规模增长快③大量表无人负责或非本团队负责 大淘宝数据在2020年~2022年之间规模增长迅速未归属表占比:16%,其中活跃表12% ②无效表&无效节点占比较高④非数研角色数据规范不足 存在大量无效表和无效节点,占比较高,带来成本、运维和找数据问题非数研角色开发的数据在设计、开发等方面规范不足 表量规模增长 团队未归属人员类型分布 人员类型 占比 淘宝业务 56.9% 其他BU 22.7% 离职员工 10.4% 外包岗位 3.8% 其他 6.2% 公共数据未覆盖 背景及问题-分层分布情况 ①公共层被引用不足,应用层自建大量中间表 •公共层复用率:存量-不足40%新增-不足20%覆盖率:15% •应用层重要dws覆盖率:存量-不足30%新增-不足10%引用占比:ods-24%公共层-15%自建中间表占比:46% ②来源表分散,存在重复拉取 •来源表分散在几百个项目空间很多表被重复导入 结果表 表量:30%成本:11% 来源表 表量:19%成本:18% 决策支持(1+N+N) 产业策略 用户策略 平台策略 直播策略 商家数据 规范未统 一 中间表 表量:46%成本:48% 引用来源表比例24% 公共层 引用公共层比例15% 表量:5% 复用率:<40% 重要dws覆盖率:<30% 共建机制未全面推广 应用层 公共数据覆盖 •TBODS仅收敛了9%的来源表 背景及问题-业务支持情况 问题 •大淘宝缺少统一的数据架构规范 •公共层面向分析型数据业务建设不足,数据效率不足 02解决方案 规范机制建立 解决方案-问题分析 问题分类 问题列举 原因分析 方法归类 未归属表占比过高 缺少有效的数据权限交接流程 架构规范 非数研角色数据规范不足 对非决策数据的规范设计和管理不足 公共层数据运营不足,不知道数据有哪些公共层缺少迭代升级,导致各团队自建 公共层引用不足,应用层自建大量公共层 研发效率数据建设 来源表分散重复拉取 ODS数据导入缺乏管控 无效表无人治理 无效表占比过高,表量较多 产品工具提效 数据管控 1、3基线无效节点过多无效节点无人治理 解决方案-治理策略 治理目标 •统一规范:统一数据体系规范 •公共层:新增DWS覆盖率提升至60% •无效表&无效节点下线:占比降低至10%以下 •ODS同源导入&数据交接管控:同源表导入和数据交接管控 商家专项 •治理能力:与DW等产品持续共建,提升模型治理产品能力 用户专项 领域专题 公共层增厚 产品能力 DataWorks •智能建模 模型设计 模型开发模型管理 •开发助手优化建议 发布管控 •数据地图数据专辑 引导推荐 •数据治理中心优雅下线 治理管控 数据交接 ODS同源导入治理 无效表下线 淘宝公共层专项 应用层提效 消费提效 专辑运营 引导推荐 专项治理 官方专辑上下架 数据检索引导 专项治理 专辑运营宣讲 权限审批引导 治理策略 数据交接 专辑数据上架 合作共建 公共层构建 开发管控 规范培训推广 优质供给 规模控制 无效表下线无效节点下线同源导入 模型评估体系 规范评估 规模评估 公共层评估 应用层评估 命名规范率目录完整率 总表量 活跃/无效表量分层/分域表量 公共层复用公共层覆盖穿透 跨集市依赖依赖深度dws覆盖率 治理能力 数据体系规范 分层架构规范公共层建设规范应用层建设规范开发/运维/治理规 范 (含数科/算法等) 模型治理 自动下线能力改名迁移能力专项治理 模型管控 管控规则配置同源导入管控开发/运维管控 03模型治理 模型治理-无效表下线&ODS同源导入治理 同源导入识别•识别�同源导入的数据 •通过空间、团队分析初步确定业务归属 业务归属盘点 •与业务确认数据归属 •配置管控规则 同源数据管控 •产品实现规则管控 •重复导入数据下线 同源导入治理 无效表下线ODS同源导入治理 执行rename或冻结 静默观察30天 控 无效表自动下线 无效表/节点识别 接受owner反馈 下线通知 规模 导入优雅下线 下线任务创建通知 1人月 几十万 下线完成/数据恢复 5% 85% 精准拦截及引导 多空间合并 触发交接 流程 •主动触发 自动化数 据评估 •评估数据在模型、质量、稳定性等方面的问题 产�评估 报告 •产�详细的评估及治理建议 进行数据治理 评估治理 效果 •评估治理后的效果 确认交接 流程 模型治理-数据交接 强规范 交接评估自动化 交接功能嵌入工作流程中 模型治理-公共层专项运营及治理 TOP3场景分析 品类分析 用户分析 商家分析 提效率 提升空间大,业务价值大 商家专项6%->56% 用户专项18%->63% 直播专项 短视频专项 用户决策专项 模型治理-增量管控 交接管控 交接数据评估 发布管控 模型发布管控 同源导入管控 管控规则配置 交接流程管控 开发规则管控 导入提醒和管控 启用检查项自动触发检查 增量管控 严管控 依据处理指南进行优化修复 查看检查拦截成效 精准管控 全链路分发 模型治理-产品化1 DataWorks-智能数据建模 数仓规划 支持数仓分层、数据域、数据集市等的定义,是数仓设计的核心规划 •支持从业务抽象到数仓顶层规划; •支持设置模型设计空间,不同部门可共享一套数仓规范等,可以统一管理不同研发空间的数据模型; 数据标准 支持字段标准、标准代码、数据字典、度量单位等的定义,以保障数据模型和指标的标准化 维度建模 支持可视化数仓维度建模,支持多种 大数据引擎的正向和逆向建模 数据指标 支持原子指标、派生指标等的设计与定义,并支持指标作为模型字段,确保业务口径统一 •支持逆向建模,解决现有数仓的建模冷启动难题; •支持通过快速复用元数据结构、Excel 文件导入模型和通过FML快速构建模型; •支持与数据开发无缝打通,自动生成 ETL框架代码; •可根据原子指标、修饰词等批量创建派生指标; •与维度建模无缝打通,能通过将指标快速搭建成模型; 模型治理-产品化2 DataWorks-数据治理中心 数据治理量化评估模型 数据治理问题优化 数据治理 问题预防、检测 核心功能特性: •检查项:治理问题的预防卡点,事前的问题自动预防 •治理项:存量问题的挖掘整治,事后的问题自动发现和治理 •量化评估体系:研发、质量、安全、存储、计算五维度的健康分 •资源使用分析:降本增效利器,让每一分钱都花得清楚明白 模型治理-产品化3 DataWorks-数据地图 •【搜索&推荐】搜索结果过滤增强 •【内容&组织】数据专辑 •将结构化的知识集中管理,有效的目录组织、支持知识导入,可以实现数据更好地管理和维护。 •【内容&组织】数据地图与DataWorks数据打通 •【内容&搜索】智能机器人 •将数据知识进行算法处理,透过机器人问答实现找表、用表等。 模型治理-能力沉淀 1:规范体系1:评估体系 诊断 评估 策略 效果 模型治理-总结 •模型治理是数据提效、架构升级、数据消费的重要手段,从决策之初到最终的决策落地得到了资源上的极大支持,也是取得成效的主要动力 •模型治理是一个长期的事情 •模型治理需要有匠心精神 1.决策支持2.长期主义 3.数据即产品 持续演进 •数据应该作为一个产品去看 •模型治理应该通过有效的数据运营,提升数据的流通效率和使用便捷性 •模型治理以业务增量价值的形式推动,才能一边支持好业务一边推动治理 •模型治理从方法论和治理手段方面,都要结合业务现状和效果不断演进 04未来规划 未来规划 供给消费提效 供给提效:升级智能建模、数据地图、治理中心等产品能力,提升数据设计、开发、上架效率,提升供给效率 消费提效:提升数据运营、推荐、引导、治理效率,促进数据消费提效 架构规范管控 提升规范管控能力:将更多管控规则通过产品化分发到各个研发环节 评治一体 评估治理流程自动化:将模型评估的治理项直接与治理产品打通,降低数据开发的治理成本 结合新技术,如:大模型等能力,提升相似表、字段、代码口径等的识别,通过自动生成代码、自动血缘切换等能力,实现治理的简单化、自动化 —THANKS—