美团数据治理在成本优化上的实践
一、背景与历程
- 当前角色:负责数据生产和资源效率。
- 过往经历:先后负责数据开发平台、模型管理、数据质量、查询服务、元数据管理等平台建设,以及业务数仓建设。
- 加入时间:2015年。
二、数据平台现状
- 平台规模:集群规模从百级别到万级别,总数据量达到EB级,日新增数据量达PB级,生产任务量超过十万级。
- 服务范围:美团的基础服务,各业务拥有独立的数据团队,使用数据平台服务。
- 成本治理:数据平台已成为网站运维成本的大头。
三、成本治理发展历程
- 蛮荒期(2015年以前)
- 数据平台按增量采购机器,业务无需提报预算。
- 业务缺乏资源意识,认为资源无限。
- 探索期(2015-2018年)
- 业务按需提报预算,开始资源隔离、资源抢占、账单等。
- 资源管理需求增加,尝试系统化探索。
- 成长期(2018年至今)
- 实现预算提报系统化、结构化、租户化。
- 大数据资源优化工作组成立,推动资源效率治理。
- 资源管理常态化,进入全流程产品化提效阶段。
四、关键措施
- 统一元数据
- 构建统一元数据,通过元数据集成系统和全链路数据追踪系统OneDataTrace。
- 预算管理
- 结构化提报预算,提高预算合理性。
- 通过Review小组和流程机制,消除信息差。
- 资源优化
- 存储资源优化:配置温数据RAID、冷数据S3、蓝光、EC,无用数据删除压缩,模型重构。
- 计算资源优化:小文件检查、倾斜检查、扫描检查、性能测试。
- 治理工作台:多视角分析治理项,提供治理操作和收益预测。
- 驱动持续优化
- 自驱:数据公会、季度评比、优秀团队经验分享。
- 他驱:数据执行委员会会议,自顶向下达成共识。
五、效果
- 资源优化:日均清理数据量PB级,年优化算力万核级别,成本节约千万级别。
六、展望
- 开发即治理
- 引擎参数自动化配置
- 基于达成时间的编排调度
- 冷热数据自动分层
通过上述措施,美团在数据治理方面实现了显著的成本优化,促进了资源的有效管理和利用。