让运维更智能:大模型时代下京东科技的AIOps之路 张静 京东科技 京东科技AIOps整体能力 目录 异常检测与智能预测实践 多场景根因定位实践 京东运维大模型探索应用 智能运维整体能力 故障发现 经验平台化,减少对老专家经验依赖; 上下穿透,一站式无需分层分别排查 无阈值监控减少误报,避免漏报 应急处理预案化、提升效率 故障定位 多种固定位算法策略灵活组合,基于APM调用链扫描挖掘故障节点关联性 通过NLP日志模板提取技术,基于知识图谱快速定位故障,做到故障发生时,扫描真正根因,输出根因报 业务可观测性:AI赋能运维监控,智能化故障发现与根因定位,快速感知业务健康度,提升运维效率和问题修复效率 系统稳定性:基于机器学习的磁盘/表空间预测提高资源利用率,基于AI算法的硬盘故障预测,告降本增效 磁盘/表空间趋势预测 依托京东大数据,利用机器学习、深度学习算法,对数据库磁盘空间、表空间以及内存未来使用趋势预测,大促容量预测快速调度,降本增效,精细化运营 硬件故障预测 标签数据不足够的PULearning半监督学习模式下,引入主动迁移学习,完成故障预测模型的训练;通过时空数据关联增强feature,输入给时间注意力模型,进而提升硬盘故障预测准确性。 技术底座 知识图谱 完整度高,覆盖新老设备和应用,一张图支撑所有业务 大量内部经验和规则沉淀 专业图计算能力加持 大数据 京东大数据同款能力,专业、可扩展能力强 日志处理,实时、海量存储,也可复用客户资源 人工智能 数据挖掘/机器学习/强化学习算法 内部复杂场景训练调优,积累大量负样本标记 专业人员及京东AI团队支持 智能运维Themis平台:技术架构 被动响应 主动发现 数据驱动 智能驱动 数据采集计算 实时 Flink/Spark流式计算 定时Worker 离线 MQ/Kafka 数据管道作业中心 数据存储-数仓 数据模型 主题划分 数据分层 数据存储-图 数据映射 数据建模 数据存储-时序 多维聚合 时间序列 数据库 API接口 API接口 (Push/Pull) MQ Kafka 数据库 数据应用层 运维知识图谱 应用健康度 自定义查询 BI报表 根因定位 监控告警 智能基线 异常检测 数据服务-算法 …… 告警共性分析 根因编排 智能文本分析 时序异常检测 运维系统 …… 资产系统 数据库 负载系统 …… 域名管理 Nginx系统 缓存系统 网络系统 主机系统 应用系统 流程系统 智能监控 崩溃卡顿启动速度成功率响应率交易量进程I/O 慢SQL 慢事务 CPU 内存 日志分析 链路追踪 数据整合 智能告警 数据服务-基础 事件回调 OpenAPI 接口平台 对接各个系统运维数据数据采集计算数据存储数据服务与应用 智能运维Themis平台:核心功能 ②智能文本分析 通过统计学习、时序聚类和时序网络算法,融合学习运维专家知识,生成多套运维专家算法组件,基于京东内部历年大促运维经验沉淀,覆盖核心业务交易、基础资源组件监控场景的故障预警,开箱即用,能够快速发现线上故障,实时监测系统稳定性,为系统运维提供有力支持。 通过Bert预训练等NLP技术,对日志全貌聚类分析,内置K8S、缓存、数据库等多场景专家语料库,从日志角度发现问题,保证线上系统稳定性。 基于运维专家知识和算法融合生成式智能故障 诊断方案,内置日常业务依赖的应用、主机、容器、宿主机、缓存、数据库、ES、KAFKA、K8S及网络等40+智能故障定位场景。通过AI训练,生成精通运维全场景技术的智能诊断专家, 能够在复杂业务场景中快速定位故障。 基于apm调用链扫描 故障节点关联性 日志模版提取 知识图谱 集中管理监控指标,AI算法智能化检测分析海量日志处理,AI算法实时聚类分析 将运维领域的知识语料与大模型结合,训练生成式运维预训练大模型,提升运维专家排障可迁移 大模型时代下智能运维Themis平台:能力全景 落地场景 DC节能 运维知识 ‘问答 变更巡检 应用主机 离群分析 SSD寿命 预测 硬件故障预测 日志聚类 场景分析链路分析 无阈值监控 指标监控中心故障定位中心 指标聚类分析动态智能基线多维下钻根因机器指标定位单指标异常检测突升突降识别智能运维能力全链路根源定位运维知识图谱多指标异常检测指标趋势预测事件根因分析故障传播关系指标相似度分析波形分析故障注入模型因果推断 日志监控中心 日志模式识别日志异常检测日志增量学习日志分类日志关联分析日志模板AI标注日志语义分析日志序列预测 智能巡检 故障预测趋势预测离群分析聚类分析 智能评分容量预测日志画像告警健康度 告警分析中心 告警聚类告警模板提取告警关联分析告警事件分析相似事件召回智能告警定级 告警降噪事件预测 融合大模型能力 运维日志分类 指标异常检测 运维知识问答 故障根因定位 辅助人工标注 RAG 意图识别 指令微调 相关性检索 根因汇总描述 数据层 主机 磁盘IO 网络IO CPU 数据库 低效SQL 索引缺失 连接数 中间件 缓存 Web服务 消息 服务端 代码行监控 业务监控 进程监控 方法性能 前端 地域运营商 JS错误 浏览器分析 页面性能 客户端 日志回捞 白屏监控 卡顿监控 网络请求 统一日志 归档订阅 关键词 实时日志 日志查询 链路追踪 链路分析 链路拓扑 请求链路 用户行为轨迹