数据资源管理实践总结
1. 背景
- 资源增长趋势:计算资源和存储资源随时间增长。
- 计算资源增长趋势:与存储资源同步增长。
- 存储资源增长趋势:符合诺兰阶段模型的发展规律。
- 资源成本管理难点:
- 数据量大,涉及人员多。
- 缺乏数仓建设规范,多为烟囱开发模式。
- 数据开发过程中缺乏成本意识,造成资源浪费。
- 缺乏数据配套优化工具。
2. 数据治理方案及实践
-
宏观治理-方法论
- 核心表、主干表、普通表、僵尸表、停用表分类。
- 大规模计算任务具有明显的时序特性,资源使用呈现波峰波谷现象。
- 时租系统将计算资源使用精确到小时级别,实现基于规则的动态扩缩容。
-
宏观治理-提升资源利用效率
- 按照高访问或高扇出、低访问或低扇出的标准对表进行分类管理。
-
宏观治理-分级存储
-
数据治理覆盖范围
- 统一采集上报口径。
- 规范上报事件模型。
- 监控上报数据。
- 数据仓库规范。
- 元数据管理。
- 数据血缘。
- 数据价值数据地图。
-
元数据治理
- 常见问题包括业务指标口径不统一、业务理解难度大。
- 数据质量较差,缺乏有效的监督手段。
- 缺乏数据规范监控,导致元数据管理难度增加。
- 缺乏数据价值量化手段。
- 数据开发缺乏资源成本意识,造成冗余存储。
- 数据缺乏安全级别标识,存在敏感数据信息泄漏风险。
-
Lego元数据
-
资源预警+大盘分析
3. 效果
- 计算资源增长趋势:治理后的计算资源使用情况。
- 存储资源增长趋势:治理后的存储资源使用情况。
- 存储资源效果:资源利用率显著提升。
以上为腾讯音乐在数据资源管理方面的实践总结,涵盖了从背景、治理方案到实际效果的全过程。