蚂蚁数据成本治理实践 数据产品与技术部-阮宏博 自我介绍 阮宏博tang.006@outlook.com •多年在大数据领域的开发和数据架构经验,参与和主导过多个行业的数据架构和数据体系建设 •当前负责蚂蚁金服数据成本治理业务,同时负责建设统一的数据资产治理平台 目录 1)背景介绍 2)组织设计和职责定义 3)蚂蚁成本治理实践 为什么要做数据成本治理 增速难衡量效率难看清 资源增速快,会稀释业务的盈利能力 单靠引擎和硬件的红利已经难以满足业务的需求 从平台视角,看不清各业务使用资源效率 从业务视角,觉得平台效率看不清 成本价值 组织设计和职责定义 通过合理的组织架构,以及清晰的职责定义,可以帮助治理快速落地,且达成目标 组织视角的成本体系和职责定义 蚂蚁技术战略 数据智能架构委员会 各业务CTOs 蚂蚁全域架构组 蚂蚁数据工作组 数据成本治理小组 职责:接受各业务数据工作组的指导,完成本业务线内的成本预算目标设定、成本治理目标达成,并与产品能力小组配合,迭代成本治理能力 支付宝业务 数据智能业务 数字金融业务 安全业务 国际业务 数字科技业务 ...... 业务体系 平台体系 定价体系建设 对客定价设计和测算 资源成本体系监控 持续优化单价 标准和制度建设 制定统一的标准和规则 达成共识的目标 用量体系建设 资源用量账单建设 治理策略挖掘和方案设计 提升业务治理和管理的效率 财务视角的成本体系和职责定义 SRE + 基础资源团队 + 数据软件团队 硬件可承载 定价 实际 已分配 通过需求错峰和分时,来提升配额的利用率 业务团队 + 平台治理团队售卖 实际 使用 管理和评估需求的合理性,平台提升用量的治理效率 定价售卖 容器池化资源 集群已持有 硬件选型,定制加速卡,自研硬件...... 利用统一调度和容器技术来实现池化资源 提升流转效率,无用资源及时归还容器,降低无效持有 成本治理实践 从定价用量管理、单价治理、用量治理、以及平台能力四个维度分别阐述我们在蚂蚁的成本治理实践 业务用量管治 支付宝业务 数据智能业务 金融业务 大安全业务 国际业务 数字科技业务 ...... 财务成本账单 BU账单 事前事中资源管理 平台用量管治 健康分和治理策略挖掘 链路下线 大任务自动查杀 自动重排和归档 冷数据重排 项目/团队账单 运维补数据管控 提升治理资产覆盖率和治理效率将策略覆盖到事前事中 表级别自动归档 个人账单 成本发布管控 ...... 整体技术架构 控制成本的增速,确保健康有序发展,提升资源的密度,看清成本的构成 组织保障制度规约 定价和用量设计 健康分规范 成本运营 培训分享,最佳实践 计算资源错峰调度 配额分时 基于时效承诺,自动的对计算资源池,任务 单价治理 网络削峰优化 跨集群缓存 通过尽可能的数据本地化存算以及 任务延迟起调 闲时补数据 起调时间进行统筹规划,从而实现CPU全天资源的利用率最大化,以及提升 网络限流 架构分拆和迁移 基础设施和引擎优化降本 一定程度的网络限流来降低网络成本 其他资源优化 回收站治理系统账号治理 tunnel上传下载非法传参治理治理 系统错误治理...... 算力混部 自建网络 硬件选型 热冷分级存储 SSD缓存提升I/O 短查询加速 ...... 单价和用量 目标: 平台产品化计量计费,使用方看得清使用成本 建立数据资源的效率评估体系,推进效能整体可衡量 单价 (效率) 用量成本 (需求) 资源成本 存储计算网络其他 可 其他成本管理 第三 存储 表存回收 储站其他 计算 业务系统其他 基于计量计费体系,向用户透明化计算/存储使用量及成本; 可度量 建立P&L管理 定义关键指标,包括成本指标&效 软件运维 方其他 消耗消耗 率指标; 资源现状 单价治理——提升配额的利用率,降低单价 结合时效承诺,寻找资源的瓶颈,通过适当的价格引导和技术能力,来提升资源的利用率 CPU内存网络 日均利用率% 峰值利用率% 日均利用率% 峰值利用率% 日均利用率%峰值利用率% I/O吞吐能力能力(峰值排队率,日均排队率) 存储资源 利用率% 存储/计算用量治理——管治结合 数据治理策略 成本管控 运维成本管控 暴力扫描数据裁剪 计算治理 数据倾斜 存储治理 资产退役 无效报表下线 无效任务和表下线 大字段结构化 存储生命周期缩短 其他优化 事中成本发布管控 事中大任务自动查杀 渐进计算分区裁剪 业务裁剪 DynamicFilter 无效回流下线 重复数据表 ClusterZorder reduce倾斜 join倾斜 group倾斜 MapJoin低性能函数函数替换 无效标签下线 简单加工 事前任务运行成本预估 增量化改造 map倾斜 参数不合理 事前事中事后 制定规范,建立标准落实管理持续优化,需求审计 平台治理提效(成本健康分) 1基于累计浪费和时间加成,升级成本健康分算法2通过产品和技术能力,提升用户治理体验 个人健康分= �统计当天 �( 发现日期 治理项每日实际浪费)可量化治理项 全面性覆盖N个核心研发平台,可快速集成管控能力 统计当天 �(풎�x( 发现日期 治理项上游每日实际浪费,时间加成)不可量化治理项 全天候 首创基于增量的离在线更新的架构,平台实现7*24业务可用 设计理念:基于累积浪费和时间加成,越久治理,扣分越多 存储健康分计算健康分 准确性整合调度频率的废弃表和无效任务识别整合调度频率和访问跨度的生命周期推荐 产�无访问任务 基于配置化+全资产的架构,未来可以快速 Top计算 暴力扫描 生命周期不合理 连续�错任务 无访问标签 无访问报表 无访问表 健壮性 的集成其他不同类型资产融入健康分,同时也可以集成更多特色的处置能力 HashTable优化 ....... …… 标准函数替代 参数不合理 无效生产query 简单加工 重排 及时性部分策略实现实时健康分刷新 3统一治理基准 【基于成本目标,设定健康分85分及格线(即每人最多允许累计浪费存储XTB(x元)或计算xCU(x元))】 平台治理提效(事中和事前的成本管理能力) 事中大任务查杀(避免随意大任务提交) 从原来的随意提交,演进到事中的管理和治理模式,禁止随意提交超大任务导致整个资源池的堵塞和打满,进而造成高昂的成本消耗,同时也兼顾效率,仅对异常使用进行管治。 任务运行超配额 特殊任务白名单开放 实时资源巡检任务运行超时 任务运行占比过高 事前和事后的成本审计(预测未来一年成本消耗,在事前做到需求合理性评估) 新上线资产在3天内,预测未来一年后表和任务的成本消耗,从而实现,在成本发生的第一时刻就立即对成本消耗异常的任务进行评估 存量历史资产,定期只对TOP的进行review持续追踪和评估成本消耗的合理性,从而推动优化和体系升级 补数据事前评估,通过本次补数据预估成本消耗,从而推动代码优化和需求ROI的评估 如果比作今天的大数据,我们希望数据变的更加普惠,更加经济让人人用得起,让人人用的爽