登录
注册
回到首页
AI搜索
发现报告
发现数据
专题报告
研选报告
定制报告
VIP权益
发现大使
发现一下
热门搜索:
新能源车
AIGC
Chatgpt
大模型
新质生产力
低空经济
当前位置:首页
/
行业研究
/
报告详情
/
3-2 淘系数据模型治理最佳实践 - 郭进士 淘宝天猫数仓
信息技术
2022-06-13
DataFunSummit2022:数据科学在线峰会
B***
AI智能总结
查看更多
研报总结
背景与问题
整体情况
:人工创建的模型占22%,机器生成的占78%;有效活跃模型仅占9%。模型分层分布为:ADS占80%,DWS占20%。
公共层分析
:
公共层表复用性不高:50%的表直接下游表数≤1,高复用性表较少(表下游表数≥3)。
公共数据表分布不合理:淘宝数据团队负责最多公共数据表(≤1,50%;≤3,70%;=0,20%)。
应用层分析
:
ADS引用DWD/DIM/DWS占比逐年变化,引用CDM的ADS占比降低,引用ADS的ADS占比增加。
跨集市依赖问题明显,整体占比30%,大进口和淘宝数据跨集市依赖占比40%以上。
问题分析
问题汇总
:系统临时表多,只增不删;命名不规范;CDM过度设计;ADS重复建设;ADS跨集市依赖;ADS共性未下沉;ADS穿透依赖。
原因分析
:系统临时表缺少消亡机制;命名不规范缺少规范管控;CDM和ADS研发分工协作不明确;ADS集市缺少依赖管控;ADS和DWS边界不清;ODS研发快速响应业务。
治理方案
整体方案
:模型共建项目机制;规范迭代;存量盘点交接;规范应用驱动评审管控;公共层复用性问题;无效表治理;公共层模型交接流程。
机制规范
:
架构分层标准:ODS、DWD、DIM、DWS、ADS。
市场划分规范:依据业务场景或服务对象划分ADS集市域。
公共层共建机制
:应用需求驱动,设计开发共建,公共层统一运维保障。
智能建模
:数据体系目录结构化模型设计线上化;对接地图数据专辑;提升效率并保证规范。
模型治理
:模型分V1.0指标组成;模型分计分方法;模型评估数据应用层效率;依赖深度;共性ADS跨集市依赖;公共层占比;UDAP评估看板;分层划域评估;团队和个人问题效果看板。
未来规划
应用层效率
:加强数据建设指导规范,减少集市高耦合。
架构规范管控
:细化设计、开发、运维、变更、治理等规范。
产品工具提效
:应用层智能建模功能提效;数据测试功能集成;数据运维功能升级;事中数据治理能力构建;事后治理能力提效;数据地图找数用数提效。
非常感谢您的观看。
你可能感兴趣
淘宝数据治理及稳定性保障实践_郭进士
信息技术
ArchSummit深圳2023|全球架构师峰会
2023-08-02
1-2 数仓规范化—菜鸟数据模型管理实践 - 王智龙
信息技术
DataFunSummit2022:数据治理在线峰会
2022-09-15
【国君家电】魔镜8月淘系(淘宝+天猫)数据速递行业整体2
未知机构
2022-09-07
网易严选离线数仓治理实践
网易
2023-03-09
湖仓数据模型设计与治理
信息技术
数语科技
2024-04-25