AIGC助力大规模对象存储服务OSS的能效提升 阿里巴巴资深技术专家对象存储负责人罗庆超 大规模对象存储服务OSS在开发运维中的挑战和目标 面对巨大挑战,如何达成目标??? 99.995% 可用性SLA 慢请求识别 海量工单准确分析 简单快捷易用性 挑战 大规模海量存储量 巨量请求X万亿/天 多租户 阿里云400万用户 …… 目标 结合AI的智能运维助力能效提升 算力算法 数据专家 当前位置 人肉运维PersonOPS 脚本运维ScriptOPS 开发运维DevOPS 数据运维DataOPS 智能运维AIOPS 场景1:通过AI做好根因分析支撑可用性SLA达成—背景 海量存储规模 X万亿请求每天 99.995% 可用性SLA 1分钟发现、5分钟处置、10分钟恢复 根因分析是核心 场景1:通过AI做好根因分析支撑可用性SLA达成—逻辑架构 UI交互简单易用 分析结果专家经验 集群指标画像 机器指标画像 用户指标画像 实体指标特征画像(基线库) 机器指标异常 集群指标异常 异常库 钉钉分析报告 ……. WEB页面展示 POPAPI 钉钉机器 查询模块 特征人 事件跟踪关联异常聚合异常根因报告 分析结果 执行层 算法 离线分析实时分析 HTM 算法 LOF 算法 BOXPLOT 算法 算法引擎 ConstraintK-sigma算法 智能算法库 异常感知模块 错误根因分析监 控 报警 分析诊断引擎分析诊树配置根因模型 运 全链路诊断模块维 数据 管 数据机器级功能模块级非功能模块监控自身 Metric 业务模块 Trace 前端日志后端日志 Log 运维事件内核事件工单事件理 Event 底层平台算力+存储 离线计算 机器学习 日志存储 OLAP OLTP 文件存储 对象存储 实时计算 大数据计算平台存储平台 工程化、服务化的算力和存储平台是基础,多维度的运维数据积累是动力算法+专家经验是引擎,简单易用UI助推广 赤骥运维平台 基础模块 场景1:通过AI做好根因分析支撑可用性SLA达成—分析流程 TRACE 模块A(IP地址1) 赤骥告警 分析任务 分析树构建 异常集合 根因分析 候选根因 SLS告警 分析树配置 模块B(IP地址2) 模块B(IP地址3) 根因模型 专家经验 特征库 模型训练 指标库 分析任务构建 分析树构建 模块C(IP地址4) 链路异常分析 异常检测算法 根因分析 场景1:通过AI做好根因分析支撑可用性SLA达成—效果 根因发现 问题诊断 异常感知 3分钟 完成百万错误分析 (百万错误在1分钟内产生) 10+ 种数据源分析 30分钟 添加新检查项到系统 场景2:智能分析访问全链路追踪慢请求—背景 租户级粒度慢请求定义 1秒、2秒、… 哪里慢了 单请求慢、整体性慢? 为什么慢了 硬件慢、软件慢? 租户A要求秒开,租户B要求不超过2秒,…… 度量标准:平均延时、最大延时、分位数延时 定位链路长多样的分析工具 分析难度大监控及时性 …… 盘古根因分析 场景2:智能分析访问全链路追踪慢请求—逻辑架构 根因定位 …… 异常监控 逻辑架构 对象根因分析 KV根因分析 用户的单请求、桶请求异常监控 机器延时异常监控 499超时异常监控 潜在故障异常监控 集群延时异常监控 慢请求定位 对象前端机分析 聚集性分析(IP、操作类型),用户行为异常分析(QPS、流量、特殊请求突增) 机器数据 请求统计数据 对象功能层分析 模块hang、请求Body传输慢、某些特定请求慢、访问底层慢 日志存储(Metric、Trace、Log、Event)时序算法分析 分位数延时 实时数据 聚集性分析(IP、操作类 KV层分析 型),RPC、IO、队列异常、负载、缓存、盘古层 机器层分析 集群级 网络级 盘古数据层 KV索引层 对象功能层 盘古层分析 盘古延时数据 KV延时数据 对象延时数据 慢盘、集群过载、线程变慢、Burst突发流量等 Drive MEM CPU 机器级 性能分析 性能异常(CPU、MEM、Drive、网络),进场异常、升级检测等 场景2:智能分析访问全链路追踪慢请求—效果 用户延时集群延时机器延时 场景3:采用NLP分析海量工单挖掘改进方向—背景 用户调研产品 使用产品 控制台、SDK、API 遇到问题 自助排查文档、工具 售后服务 求助人工服务工单系统 自助服务 智能语音、服务机器人 人工参与 针对进入工单系统的问题定点优化度量工单数量、工单解决时长 场景3:采用NLP分析海量工单挖掘改进方向—方案 模型迭代优化 NLP接入数据清洗 工单系统数据 (文字、语音、图片等) 智能训练 专家经验打标 数据分析 基于工单标签分类,费用类工单居然占比最大分析流转环节,服务时长降低X倍 通过智能分析,大量节约手工标注开销 场景3:采用NLP分析海量工单挖掘改进方向—效果 一级标签 40+ 3轮迭代工单分类准确率从 60+%→70+%→80+% 节约 300+人日/月 场景4:探寻AIGC的智能机器人提高易用性—背景 用户调研产品 使用产品 控制台、SDK、API 遇到问题 自助排查文档、工具 售后服务 求助人工服务工单系统 自助服务 智能语音、服务机器人 人工参与 通过AIGC训练的智能机器人,采用文字、图片、视频为用户提供服务通过智能回答解决问题,降低工单数量,减少服务人力投入 随时快速响应,解决问题,提高易用性 场景4:探寻AIGC的智能机器人提高易用性—方案探索 当前阶段 AI生成文档 AI生成操作图片 AI生成指导视频 总结和展望 •通过DataOps积累海量运维数据,是走向AIOps(智能运维)的必经之路 •高频问题(根因分析、慢请求、工单优化等)采用智能运维切入收益大 •AIOps道阻且长,行则将至