分享主题 大模型时代的智能运维(AIOps) 裴丹清华大学 面临哪些技术挑战?与以往的AIOps小模型是 什么关系? 大模型时代,运维界普遍关注的问题 如何选择通识大模型底座? 近、中、长期有哪些应用? 问题 她O它怎h在m找么y哪g到了o里d谁?! 它她莉不第马娅停五上公的层要主说,被:找A处到A决她-2了3囚·!···室·! 快去了救?人! 决策者 大语言模型 a@*&u#&*¥&*%*%&+¥&o#p5a*%u&&9…$* %¥#au&**& ¥*%&#a&@v%#2@$3#*..@&.*..&. 现有AIOps工具 在大模型时代,AIOps可以“说人话”了 星战男主人公 C-3PO机器人R2-D2机器人 指标 软件模块\调用关系 日志 文本(工单,变更,操作) 应用性能监控 社交媒体 告警 配置 拨测 流量镜像 除了需要“说人话”,AIOps还需要把语言模型与已有的小模型工具有机整合 AIOps小模型数量众多 多样化的场景预防 定位 发现恢复改进 多模态数据实时数据 数据关系复杂 比尔·盖茨:AI智能体即将彻底改变我们使用计算机的方式 运维智能体 助教顾参专理练问谋家 AIOps中的智能体 历史⼯单、告警、操作记录、⽂档等 通识大模型在运维领域表现整体不如人意,而且参差不齐 欢迎为评测榜单贡献题目和模型: https://opseval.cstcloud.cn/content/leaderboard 性能优化 通用领域知识 监控告警 第三梯队 7 混合型任务软件部署 第⼀梯队 自动化脚本网络配置 第⼆梯队 故障分析和诊断 运维领域的应用需要一个“能听懂运维语言”的大语言模型 大语言模型的模型栈 L3私有部署运维大语言模型 基于私域运维数据:提示工程、外挂知识库检索 L2运维大语言模型 基于公域运维语料、知识库,进行预训练、微调、提示工程 L1松耦合的通识大语言模型底座 系统优 风控优 对错误容忍度低,尽量避免幻觉判断对错、标注门槛高 结果必须可解释性强 支持低开销私有部署 既要避免过于乐观:大模型在运维领域普遍落地还存在不少技术挑战 势技术挑战势 运维语料不足,私有语料质量数量更不足如何融入大量存量结构化知识 大语言模型无法直接处理结构化、多模态、实时数据如何结合大量存量AIOps、自动化运维工具 也要避免悲观:前述所有技术挑战都有技术思路可以解决 挑战 解决思路 避免幻觉 检索增强增大显式知识占比:思维链、思维树、思维图、知识图谱“有据可依”的生成策略提供可解释性 可解释性强严肃语料不足 训练策略:课程学习,由易到难 私有部署开销低 模型分层在公域做预训练、微调、提示工程私有部署时避免预训练、微调通过检索方式融合本地知识库文档、提示作为便捷的知识工程手段通过降低模型精度降低私有部署推理开销 私域数据数量、质量不足底座模型选择 与开源大语言模型底座尽量解耦 大语言模型无法直接处理结构化、多模态、实时数据 多模态基础模型群;AIOps结构化大模型:左脑AIOps算法,右脑运维知识图谱 如何结合大量存量AIOps、自动化运维工具 基于智能体方式,采用基础模型编程框架,融合小模型运维工具(插件(Plug-in),工具(Tool)) 不求全面开花,而是小步快跑、以用促建:近期、中期、长期应用的定位 运维大语言模型带来的直接增量价值 眼:监控 手:自动化运维 助教顾参 理练问谋 脑:AIOps •左脑:算法 •右脑:运维知识图谱 心:专家人工审核、决策 耳:基于运维大语言模型的输入增强 中长期应用的定位 +内部专家 嘴:基于运维大语言模型的输出增强 运维大语言模型近期应用举例(1):数字化运维助手 对结构化知识检索 问:X应用交易响应时间比平时增加1倍,可能原因是什么? 答:可能的原因包括: 1.依赖Y应用处理时间过长 2.中间件Weblogic问题,请检查… 3.网络丢包问题,请检查相关服务间见的网络链路丢包率是否有异常 4.第三方应用问题,请检查… 问:Oracle活跃会话数的确飙高了,请问可能的原因是什么? 答:Oracle实例B的活跃会话数的确飙高可能的原因包括: 1.log-file-syn告警 2.实例B的主机异常 3.有CPU占用过高的SQL 问:中间件WebLogic的确异常,请问下面怎么办? 答:中间件Weblogic异常的原因包括: 1.WebLogic堆空间满,请检查… 2.Oracle数据库“平均活跃会话数”指标飙高 问:查到实例B上有个SQLC占用CPU90%,该如何处理? 答:建议杀掉该SQLC,具体指令是…。建议联系Oracle数据库管理员执行该操作。 检索插件 私有部署运维大语言模型 基于私域运维数据:提示工程、外挂知识库检索 私有文档 运维大语言模型 基于公域运维语料、知识库,进行预训练、微调、提示工程 运维大语言模型近期应用举例(2):私有文档问答 松耦合的通识大语言模型底座 生成技术:检索增强 生成策略:通过“有据可依”提供可解释性让模型能够正确的给自己生成的内容打上引用(reference),清晰地展示出每一段是来自于哪个文本 运维大语言模型近期应用举例(3):脚本解读(Query2Lang) 对存量脚本进行文字解读 SQL2Lang (解读SQL) GSQL2Lang (解读图SQL) SPL2Lang (解读日志查询语句) Scripts2Lang (解读脚本) Config2Lang (解读配置) 运维大语言模型近期应用举例(4):数据注释(Data2Annotation) 对运维数据中的本体、实体、属性、字段、标签进行注释 设备类型 指标含义 日志关键字 告警类型 告警常见原因 Config2Lang告(警解读常配见置)处置建议 近中期应用:Lang2Query,为单个存量工具提供自然语言交互增强,提供意图识别、总结等能力 基础:数据标准化、工具接口标准化 Lang2API (自动生成API调用) Lang2SQL (自动生成SQL) Lang2GSQL (自动生成图 SQL) Lang2SPL (自动生成日志查询语句) Lang2Scripts (自动生成脚本) Config2Lang (解读配置) Lang2Config (自动生成配置) 中长期应用:基于AIOps智能体,编排多个工具完成复杂运维任务 举例:基于大语言模型的实时故障工单自动生成 基于大语言模型,以实时日志、调用链、指标等数据为输入,结合故障检测、定位、根因分析、影响分析等AIOps工具的输出,自动生成实时故障工单。 避免过于乐观:运维大模型仍面临不少挑战 应用及路径建议:小步快跑、以用促建 大模型在AIOps领域的应用落地路径 应用的定位:从助手、教练、顾问、参谋到内部专家 杜绝幻觉、可解释性强、私有部署开销低、私有语料质量数据均不足、融合 近期近中期 中长期 存量知识、工具、多模态数据、通识大语言模型底座不易选择 数字化运维助手,私有运维文档问答,运维脚本解读,运维数据注释 为单个运维工具提供自然语言交互增强 基于智能体,编排多个工具完成更复杂运维任务 避免过于悲观:挑战都可解 模型分层:通识大语言模型、运维大语言模型、私有部署运维大语言模型 区分、整合非结构化大模型与结构化大模型 谨慎乐观 大势所趋、前景可期、机遇与挑战并存、 关键组件运维大语言模型是核心基础 •检索增强、有据可依 协同创新、以用促建 运维大语言模型 多模态基础模型群 结构化大模型:左脑AIOps算法、右脑运维图谱 通过检索融合本地知识库智能体&基础模型编程框架 •课程学习、由易到难 •知识工程:从文档到知识图谱,增加显示知识 •检索本地知识库、降低模型精度 •与通识大语言模型底座尽量解耦