埋点成本治理解决方案
一、治理背景
- 应用规模:每日存储增量达10 PB以上,每日埋点量超10万亿次,峰值流量达1亿次/秒。
- 治理原因:为了优化资源成本和提升运维效率。
- 治理效果:应用于抖音、头条等业务,覆盖85%业务,2021年节省成本近亿元,2022年预计节省3000万元以上。
二、治理策略
- 先控增量,再治存量:控制新增埋点,治理现有存量埋点。
- 降低无用埋点上报:通过分析和筛选无用埋点并下线,减少资源浪费。
- 按重要性区分埋点等级:根据埋点的重要程度提供不同的运维保障。
- 支持采样上报:对于非关键埋点支持采样上报,减少存储成本。
三、治理经验回顾
- 推动业务治理:通过提供观测指标和逐步推广自动化治理,降低资源浪费。
- 自动化治理:每两月进行一次治理,如2022年节省了4000万元。
- 埋点使用情况分析:通过分析埋点的使用情况,优化资源分配。
四、规划与展望
- 打通成本与资源:实现资源申请、使用情况治理和成本账单的联动。
- 个性化推荐治理方案:根据业务数据状况推荐合适的治理方案。
- 扩展治理范围:涵盖无用数据、异常数据和低质量数据,进一步降低成本和提升数据质量。
总结
通过上述策略和经验,字节跳动成功地降低了埋点相关的成本和资源消耗,提升了整体运维效率,并实现了显著的成本节约。未来将继续优化治理范围和方法,以进一步提升数据质量和降低资源成本。