热门搜索：

大模型时代的智能运维AIOps

信息技术2023-10-18裴丹清华大学赵***

AI智能总结

《大模型时代的智能运维（AIOps）》研究报告聚焦于大模型时代下智能运维（AIOps）的挑战、应用与未来方向。报告以裴丹教授在清华大学的分享为主题展开讨论。

技术挑战与小模型的关系

报告指出，在大模型时代，AIOps面临的挑战之一是如何将复杂的语言模型与现有的小模型工具有机整合，以实现更高效、准确的数据分析和决策支持。与以往的小模型相比，大模型更强调“说人话”的能力，即能够以人类可理解的语言表达分析结果，这要求模型不仅能够处理大量数据，还要具备一定的语境理解和推理能力。

应用领域与层次

报告讨论了AIOps在不同层次的应用，从短期到长期，涵盖从辅助决策到构建智能化运维体系的全过程。应用范围包括但不限于：

数字化运维助手：帮助快速诊断和解决问题，提供针对性的解决方案。
私有文档问答系统：基于特定领域的知识库，实现高效的文档检索与问答。
脚本解读与自动化：自动解析和执行脚本，减少人为错误和提高效率。
数据注释与理解：对运维数据进行深度理解，提取有价值的信息。
自然语言交互增强：为运维工具添加自然语言接口，提升用户体验。
基于智能体的复杂任务编排：集成多个工具，自动处理复杂的运维流程。

大语言模型的角色与挑战

报告强调，大语言模型在AIOps中扮演核心角色，但同时也面临着诸多挑战，如模型的泛化能力、数据的质量与规模、模型的可解释性以及成本控制等。解决这些挑战的关键在于：

模型分层：采用通识大语言模型作为基础，构建针对特定领域的运维大语言模型，并在私有环境中进行优化。
多模态支持：集成多模态数据处理能力，以应对结构化与非结构化数据的融合。
课程学习与知识工程：通过逐步学习和知识图谱构建，增强模型的解释性和实用性。
成本效益：在保持模型性能的同时，降低私有部署的成本，例如通过优化模型结构、增加本地知识检索等手段。

结论与未来展望

报告认为，尽管AIOps领域仍面临技术挑战，但通过不断的技术创新和实践探索，这些挑战都是可解的。未来，AIOps的发展趋势将更加注重实际应用效果，强调以用户需求为导向，通过持续优化模型和工具，实现智能化运维的全面升级。同时，强调了跨学科合作的重要性，鼓励不同领域间的协同创新，共同推动AIOps技术的发展与应用。

报告最后强调了谨慎乐观的态度，即在面对挑战的同时，也看到解决之道，鼓励业界继续探索和实践，以实现智能运维的长远目标。

分享主题大模型时代的智能运维（AIOps) 裴丹清华大学面临哪些技术挑战？与以往的AIOps小模型是什么关系？大模型时代，运维界普遍关注的问题如何选择通识大模型底座？近、中、长期有哪些应用？问题她O它怎h在m找么y哪g到了o里d谁？! 它她莉不第马娅停五上公的层要主说，被：找A处到A决她-2了3囚·！···室·！快去了救？人！决策者大语言模型 a@*&u#&*¥&*%*%&+¥&o#p5a*%u&&9…$* %¥#au&**& ¥*%&#a&@v%#2@$3#*..@&.*..&. 现有AIOps工具在大模型时代，AIOps可以“说人话”了星战男主人公 C-3PO机器人R2-D2机器人指标软件模块\调用关系日志文本（工单,变更,操作）应用性能监控社交媒体告警配置拨测流量镜像除了需要“说人话”，AIOps还需要把语言模型与已有的小模型工具有机整合 AIOps小模型数量众多多样化的场景预防定位发现恢复改进多模态数据实时数据数据关系复杂比尔·盖茨：AI智能体即将彻底改变我们使用计算机的方式运维智能体助教顾参专理练问谋家 AIOps中的智能体历史⼯单、告警、操作记录、⽂档等通识大模型在运维领域表现整体不如人意，而且参差不齐欢迎为评测榜单贡献题目和模型： https://opseval.cstcloud.cn/content/leaderboard 性能优化通用领域知识监控告警第三梯队 7 混合型任务软件部署第⼀梯队自动化脚本网络配置第⼆梯队故障分析和诊断运维领域的应用需要一个“能听懂运维语言”的大语言模型大语言模型的模型栈 L3私有部署运维大语言模型基于私域运维数据：提示工程、外挂知识库检索 L2运维大语言模型基于公域运维语料、知识库，进行预训练、微调、提示工程 L1松耦合的通识大语言模型底座系统优风控优对错误容忍度低，尽量避免幻觉判断对错、标注门槛高结果必须可解释性强支持低开销私有部署既要避免过于乐观：大模型在运维领域普遍落地还存在不少技术挑战势技术挑战势运维语料不足，私有语料质量数量更不足如何融入大量存量结构化知识大语言模型无法直接处理结构化、多模态、实时数据如何结合大量存量AIOps、自动化运维工具也要避免悲观：前述所有技术挑战都有技术思路可以解决挑战解决思路避免幻觉检索增强增大显式知识占比：思维链、思维树、思维图、知识图谱“有据可依”的生成策略提供可解释性可解释性强严肃语料不足训练策略：课程学习，由易到难私有部署开销低模型分层在公域做预训练、微调、提示工程私有部署时避免预训练、微调通过检索方式融合本地知识库文档、提示作为便捷的知识工程手段通过降低模型精度降低私有部署推理开销私域数据数量、质量不足底座模型选择与开源大语言模型底座尽量解耦大语言模型无法直接处理结构化、多模态、实时数据多模态基础模型群；AIOps结构化大模型：左脑AIOps算法，右脑运维知识图谱如何结合大量存量AIOps、自动化运维工具基于智能体方式，采用基础模型编程框架，融合小模型运维工具（插件（Plug-in），工具（Tool)）不求全面开花，而是小步快跑、以用促建：近期、中期、长期应用的定位运维大语言模型带来的直接增量价值眼：监控手：自动化运维助教顾参理练问谋脑：AIOps •左脑：算法 •右脑：运维知识图谱心：专家人工审核、决策耳：基于运维大语言模型的输入增强中长期应用的定位 +内部专家嘴：基于运维大语言模型的输出增强运维大语言模型近期应用举例(1)：数字化运维助手对结构化知识检索问：X应用交易响应时间比平时增加1倍，可能原因是什么？答：可能的原因包括： 1.依赖Y应用处理时间过长 2.中间件Weblogic问题，请检查… 3.网络丢包问题，请检查相关服务间见的网络链路丢包率是否有异常 4.第三方应用问题，请检查… 问：Oracle活跃会话数的确飙高了，请问可能的原因是什么？答：Oracle实例B的活跃会话数的确飙高可能的原因包括： 1.log-file-syn告警 2.实例B的主机异常 3.有CPU占用过高的SQL 问：中间件WebLogic的确异常，请问下面怎么办？答：中间件Weblogic异常的原因包括： 1.WebLogic堆空间满，请检查… 2.Oracle数据库“平均活跃会话数”指标飙高问：查到实例B上有个SQLC占用CPU90%，该如何处理？答：建议杀掉该SQLC，具体指令是…。建议联系Oracle数据库管理员执行该操作。检索插件私有部署运维大语言模型基于私域运维数据：提示工程、外挂知识库检索私有文档运维大语言模型基于公域运维语料、知识库,进行预训练、微调、提示工程运维大语言模型近期应用举例(2)：私有文档问答松耦合的通识大语言模型底座生成技术：检索增强生成策略：通过“有据可依”提供可解释性让模型能够正确的给自己生成的内容打上引用（reference），清晰地展示出每一段是来自于哪个文本运维大语言模型近期应用举例(3)：脚本解读(Query2Lang) 对存量脚本进行文字解读 SQL2Lang （解读SQL) GSQL2Lang （解读图SQL) SPL2Lang （解读日志查询语句） Scripts2Lang （解读脚本） Config2Lang （解读配置）运维大语言模型近期应用举例(4)：数据注释（Data2Annotation）对运维数据中的本体、实体、属性、字段、标签进行注释设备类型指标含义日志关键字告警类型告警常见原因 Config2Lang告（警解读常配见置）处置建议近中期应用：Lang2Query,为单个存量工具提供自然语言交互增强，提供意图识别、总结等能力基础:数据标准化、工具接口标准化 Lang2API （自动生成API调用) Lang2SQL （自动生成SQL) Lang2GSQL （自动生成图 SQL) Lang2SPL （自动生成日志查询语句） Lang2Scripts （自动生成脚本） Config2Lang （解读配置） Lang2Config （自动生成配置）中长期应用：基于AIOps智能体，编排多个工具完成复杂运维任务举例：基于大语言模型的实时故障工单自动生成基于大语言模型，以实时日志、调用链、指标等数据为输入，结合故障检测、定位、根因分析、影响分析等AIOps工具的输出，自动生成实时故障工单。避免过于乐观：运维大模型仍面临不少挑战应用及路径建议：小步快跑、以用促建大模型在AIOps领域的应用落地路径应用的定位：从助手、教练、顾问、参谋到内部专家杜绝幻觉、可解释性强、私有部署开销低、私有语料质量数据均不足、融合近期近中期中长期存量知识、工具、多模态数据、通识大语言模型底座不易选择数字化运维助手，私有运维文档问答，运维脚本解读，运维数据注释为单个运维工具提供自然语言交互增强基于智能体，编排多个工具完成更复杂运维任务避免过于悲观：挑战都可解模型分层：通识大语言模型、运维大语言模型、私有部署运维大语言模型区分、整合非结构化大模型与结构化大模型谨慎乐观大势所趋、前景可期、机遇与挑战并存、关键组件运维大语言模型是核心基础 •检索增强、有据可依协同创新、以用促建运维大语言模型多模态基础模型群结构化大模型：左脑AIOps算法、右脑运维图谱通过检索融合本地知识库智能体&基础模型编程框架 •课程学习、由易到难 •知识工程：从文档到知识图谱，增加显示知识 •检索本地知识库、降低模型精度 •与通识大语言模型底座尽量解耦

点击免费查看完整报告

你可能感兴趣

大模型时代的智能运维AIOps

技术挑战与小模型的关系

应用领域与层次

大语言模型的角色与挑战

结论与未来展望

你可能感兴趣

让运维更智能：大模型时代下京东科技的AIOps之路

2023大模型时代：智能设计的机遇和挑战

大模型时代：智能设计的机遇和挑战

设备智能运维全环节布局，互联时代迎风起航

CNUTCon特刊：智能时代运维最佳实践