让运维更智能:大模型时代下京东科技的AIOps之路 张静 京东科技 •2023DAMS峰会智能运维专题演讲 •2023Gdevops峰会智能运维专题演讲 •2023AiDDAI+软件研发数字峰会-智能运维专题 •参与撰写中国信通院《云计算智能化运维(AIOps)能力成熟度模型》白皮书,第1部分通用能力要求、第2部分系统与工具技术要求。 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 张静 京东科技智能运维算法资深经理 智能运维发明专利60项、IEEE国际会议论文收录10篇。 带领团队致力于京东智能运维算法迭代,应用于京东线上横向业务场景,算法在监控、数据库、网络、资源调度等多个纵向场景取得突破。 •2021数据技术嘉年华《解密StarDB国产数据库智能运维的核心算法》 •ArchSummit2022全球架构师峰会智能运维专题演讲 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 京东科技AIOps整体能力 目录 异常检测与智能预测实践 多场景根因定位实践 京东运维大模型探索应用 01京东科技AIOps整体能力 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 2 从传统到智能运维的演进 业务发生大量失败 传统 告警滞后 1 无告警/无效告警 静态配置繁琐业务、研发、运维逐一排查节点 根因定位修复 09:30 09:35 09:40 09:45 09:50 09:55 10:00 10:05 10:10 1 智告警实时 能告警精度保证 自动动态配置修复 2 知识图谱 智能根因定位GPT 业务场景复杂多变故障检测手段单一故障定位耗时繁琐 推荐解决方案 波形分析+知识图谱+ 关联分析+GPT 波形分析+日志分析 +GPT NLP技术+知识图谱 +GPT GOPS全球运维大会暨XOps技术创新峰会2024·北京站 由单一能力 向体系化场景演进 全链路 可观测性 与根因分析 由被动向 主动式、智能化 发展 智能运维体系建设趋势 由单一能力向体系化场景演进 建立统一的智能运维管理平台,实现以业务为中心的监控管理体系,提高信息部门运维管理水平和IT系统运行保障能力 可观测性和根因分析辅助决策 通过数据分析和AI算法,对告警进行溯源;基于知识图谱的根因定位,以及异常检测,及早发现风险,辅助运维决策 由被动响应向主动式、智能化 基于专家规则、统计分析、机器学习,对风险进行汇总、溯源、管理和处置,以及基于混沌工程进行稳定性的主动管理 点:实现针对某个具体运维场景的能力建设,如应用监控、 日志分析 线:形成一类运维场景的通用AIOps能力,如业务指标的异 常检测和根因定位场景 面:形成运维域AIOps平台,如巡检、故障预测、异常发现、 根因定位、故障自愈等能力 体:达到全方位智能化,融合混沌工程,实现稳定性主动管 理,提高系统健壮性和可用性 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 人工智能 数据挖掘/机器学习/强化学习算法 内部复杂场景训练调优,积累大量负样本标记 专业人员及京东AI团队支持 大数据 京东大数据同款能力,专业、可扩展能力强 日志处理,实时、海量存储,也可复用客户资源 知识图谱 完整度高,覆盖新老设备和应用,一张图支撑所有业务 大量内部经验和规则沉淀 专业图计算能力加持 智能运维整体能力 故障发现 经验平台化,减少对老专家经验依赖; 上下穿透,一站式无需分层分别排查 无阈值监控减少误报,避免漏报 应急处理预案化、提升效率 故障定位 多种固定位算法策略灵活组合,基于APM调用链扫描挖掘故障节点关联性 通过NLP日志模板提取技术,基于知识图谱快速定位故障,做到故障发生时,扫描真正根因,输出根因报告 业务可观测性:AI赋能运维监控,智能化故障发现与根因定位,快速感知业务健康度,提升运维效率和问题修复效率 系统稳定性:基于机器学习的磁盘/表空间预测提高资源利用率,基于AI算法的硬盘故障预测,降本增效 磁盘/表空间趋势预测 依托京东大数据,利用机器学习、深度学习算法,对数据库磁盘空间、表空间以及内存未来使用趋势预测,大促容量预测快速调度,降本增效,精细化运营 硬件故障预测 标签数据不足够的PULearning半监督学习模式下,引入主动迁移学习,完成故障预测模型的训练;通过时空数据关联增强feature,输入给时间注意力模型,进而提升硬盘故障预测准确性。 技术底座 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 智能运维Themis平台:技术架构 被动响应 主动发现 数据驱动 智能驱动 运维系统 …… 资产系统 数据库 负载系统 …… 域名管理 Nginx系统 缓存系统 网络系统 主机系统 应用系统 流程系统 崩溃卡顿启动速度成功率响应率交易量 进程I/O 慢SQL 慢事务 CPU 内存 日志分析 链路追踪 数据采集计算 MQ Kafka 实时 离线 作业中心 数据管道 MQ/Kafka 定时Worker Flink/Spark流式计算 数据存储-数仓 数据模型 主题划分 数据分层 数据存储-图 数据映射 数据建模 数据存储-时序 多维聚合 时间序列 数据服务-算法 …… 告警共性分析 根因编排 智能文本分析 时序异常检测 智能监控 数据整合 API接口 (Push/Pull) 数据库 API接口 数据库 智能告警 数据服务-基础 事件回调 OpenAPI 接口平台 数据应用层 运维知识图谱 应用健康度 自定义查询 BI报表 根因定位 监控告警 智能基线 异常检测 对接各个系统运维数据数据采集计算数据存储数据服务与应用 通过Bert预训练等NLP技术,对日志全貌聚类分析,内置K8S、缓存、数据库等多场景专家语料库,从日志角度发现问题,保证线上系统稳定性。 智能运维Themis平台:核心功能 ②智能文本分析 通过统计学习、时序聚类和时序网络算法,融合学习运维专家知识,生成多套运维专家算法组件,基于京东内部历年大促运维经验沉淀,覆盖核心业务交易、基础资源组件监控场景的故障预警,开箱即用,能够快速发现线上故障,实时监测系统稳定性,为系统运维提供有力支持。 集中管理监控指标,AI算法智能化检测分析海量日志处理,AI算法实时聚类分析 基于运维专家知识和算法融合生成式智能故障 诊断方案,内置日常业务依赖的应用、主机、容器、宿主机、缓存、数据库、ES、KAFKA、K8S及网络等40+智能故障定位场景。通过AI训练,生成精通运维全场景技术的智能诊断专家,能够 在复杂业务场景中快速定位故障。 基于apm调用链扫描 故障节点关联性 日志模版提取 知识图谱 将运维领域的知识语料与大模型结合,训练生成式运维预训练大模型,提升运维专家排障可迁移性 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 数据层 主机 磁盘IO 网络IO CPU 数据库 低效SQL 索引缺失 连接数 中间件 缓存 Web服务 消息 服务端 代码行监控 业务监控 进程监控 方法性能 前端 地域运营商 JS错误 浏览器分析 页面性能 客户端 日志回捞 白屏监控 卡顿监控 网络请求 统一日志 归档订阅 关键词 实时日志 日志查询 链路追踪 链路分析 链路拓扑 请求链路 用户行为轨迹 落地场景 DC节能 运维知识‘问答 变更巡检 应用主机离群分析 SSD寿命预测 硬件故障预测 日志聚类 场景分析链路分析 无阈值监控 大模型时代下智能运维Themis平台:能力全景 日志监控中心 日志关联分析日志模板AI标注 日志语义分析 日志序列预测 智能运维能力 告警分析中心 智能告警定级事件预测 告警降噪 相似事件召回 告警事件分析 告警关联分析 告警模板提取 告警聚类 智能巡检 容量预测告警健康度 日志画像 智能评分 聚类分析 离群分析 趋势预测 故障预测 日志分类 日志增量学习 日志异常检测 日志模式识别 故障定位中心 因果推断 故障注入模型 故障传播关系 事件根因分析 运维知识图谱 全链路根源定位 机器指标定位 多维下钻根因 指标监控中心 波形分析 指标相似度分析 指标趋势预测 多指标异常检测 突升突降识别 单指标异常检测 动态智能基线 指标聚类分析 融合大模型能力 运维日志分类 指标异常检测 运维知识问答 故障根因定位 辅助人工标注 RAG 意图识别 指令微调 相关性检索 根因汇总描述 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 资质证书拥有60余项境内智能运维发明专利,拥有10项智能运维IEEE国际论文。 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 第1篇ieee-智能运维方向论文IEEEXplore检索地址:https://ieeexplore.ieee.org/document/9680175第2篇ieee-智能运维方向论文IEEEXplore检索地址:https://ieeexplore.ieee.org/document/9762449第3篇ieee-智能运维方向论文IEEEXplore检索地址:https://ieeexplore.ieee.org/document/9778305第4篇ieee-智能运维方向论文IEEEXplore检索地址:https://ieeexplore.ieee.org/document/9858500第5篇ieee-智能运维方向论文IEEEXplore检索地址:https://ieeexplore.ieee.org/document/9832400第6篇ieee-智能运维方向论文IEEEXplore检索地址:https://ieeexplore.ieee.org/document/9904207第7篇ieee-智能运维方向论文IEEEXplore检索地址:https://ieeexplore.ieee.org/document/10072770第8篇ieee-智能运维方向论文IEEEXplore检索地址:https://ieeexplore.ieee.org/document/10075876第9篇ieee-智能运维方向论文IEEEXplore检索地址:https://ieeexplore.ieee.org/document/10194171第10篇ieee-智能运维方向论文IEEEXplore检索地址:https://ieeexplore.ieee.org/document/10393131 资质证书 资质证书 申请智能运维发明专利60余项,信通院云系统稳定安全运行-可观测性优秀案例 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 02异常检测与智能预测实践 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 指标异常检测 通过统计学习、时序聚类和时序网络算法,融合学习运维专家知识,生成多套运维专家算法组件,基于京东历年大促运维经验沉淀,覆盖支付交 易、线下外单支付、K8s核心组件、域名等监控场景故障预警,开箱即用,快速发现线上故障,实时监测系统稳定性,为系统运维提供有力支持 3、指标动态基线预测 1、单指标异常检测 单指标异常检测适用于所有的时序性数据的异常识别,比常规固 定阈值监控更加精确,减少误报和漏报 2、多指标异常检测 模 型结果 多指标异常检测适用于单指标间的关联分析,得出不同指标变化影响及严重程度,下钻分析深层次的异常 单指标异常检测模型 多指标异常检测模型 实时故障发现事前预判:内存一直在缓慢增长,可能发生了内存溢出 DatasetA DatasetB Precision Recall F1 Pr