网易有数数据治理演进
1. 数据治理历程
- 2006年:分布式数据库、分布式文件系统、分布式搜索引擎成为支撑网易互联网2.0时代的三大支柱。
- 2009年:基于Hadoop进行数据分析及运维。
- 2014年:大数据平台“猛犸”和“网易有数”上线,加速大数据规模化应用。
- 2017年:网易大数据正式对外商业化。
- 2018年:网易严选、考拉、音乐、新闻等业务开始构建数据中台,发布“全链路数据中台”解决方案。
- 2020年:提出“数据生产力”理念,倡导“人人用数据、时时用数据”。
- 2022年:发布数据治理和数据开发一体化“数据治理2.0”解决方案。
2. 当前数据治理挑战
-
数据质量问题:
- 平均每周10个数据质量问题,主要因指标口径不一致。
- 需求交付速度慢,平均需一周时间。
- 查询效率低,一年范围查询耗时316秒。
- 数据冗余严重,超过50%的任务直接读原始数据。
- 跨层引用率低,模型引用系数复用率低。
-
数据资产管理:
- 资产管理混乱,存在大量冗余表。
- 资源使用不合理,导致成本指数增长。
- 数据资产中心效果显著,如云音乐、严选表优化分别节省了47.6%和61.0%。
3. 解决方案
-
全链路数据质量跟踪体系:
- 建立从数据源到数据应用的全链路监控体系。
- 构建智能基线运维体系,实现基线预警和任务影响分析。
-
数据安全:
- 引入数据加密、权限管理、访问审计等措施。
- 设立公共回收站目录,增强安全性。
-
数据治理一体化:
- 实现数据开发、数据资产消费治理的一体化。
- 推动数据资产门户和数据治理部门的协同工作。
- 细化计算和存储成本,评估数据价值,形成治理改进闭环。
4. 数据文化建设
- 数据分析大赛、数据治理大赛、数据可视化大赛:提升数据意识。
- 资格认证:培养数据开发工程师和数据可视化分析工程师。
- 组织建设:成立数据治理部,配备数据治理专员,制定数据治理评分制度,推动业务部门重视数据治理。
通过以上措施,网易在数据治理方面取得了显著进展,实现了数据的高效管理和利用。