行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

陈理华-大语言模型在 IT 运维领域的建设落地实践

信息技术 2024-05-13 2024 第22届 GOPS 全球运维大会暨 XOps 技术创新峰会 · 深圳站 LIHUYUN

大语言模型赋能运维新篇章

核心观点与关键要素
陈理华总监提出大语言模型（LLM）在运维领域的应用，从运维知识问答进化到运维Agent，构建运维智能体，并最终打造智慧运维Copilot。关键要素包括：

CVP架构：基于ChatGPT、VectorDB和Prompt，支撑大模型完成垂直领域故障问答。
Agent工作流程：任务规划→API筛选/分配→任务执行→结果生成，具备自主理解、决策和执行复杂任务的能力。
COT技术：结合COT提出大模型运维开发范式，实现“会做事”的智能体。
AgentEval评估：通过参数提取准确率和工具调用准确率评估Agent能力，提升任务规划质量。

两大运维场景落地

PaaS大模型运维能力
- 覆盖xxxx台核心系统纳管主机，保障x万余POD健康运行。
- 支持xx种故障场景，实现1n异常发现（K8S告警、日志采集与告警解释）和3n处置执行（大模型Agent调度运维操作，敏感操作二次授权）。
- 生产效率提升x0%以上。
SaaS大模型运维能力
- 覆盖x0%重点业务（CRM系统个人、家庭、政企等）。
- 拉通指标、日志、链路数据，实现x5%故障定界准确率。
- 故障发现、分析、恢复流程自动化，保障业务平稳运行。

运维智能社会构建

Agent能力：持续打造数据库、中间件等智能体，构建运维领域智能体平台。
Agent共创平台：依托中国信息通信研究院，组织电信业创新合作，推动规范化、标准化智慧运维。
Agent协同机制：与中国移动、复旦大学合作，通过强化训练提升基座大模型能力。

研究结论
大模型赋能运维实现效率提升和智能化转型，通过PaaS/SaaS场景落地验证其可行性，未来将构建协同化的运维智能社会。

大语言模型赋能，开启运维新篇章陈理华总监陈理华中移（动）信息技术有限公司/广州业务支撑中心总监十余年省级CRM/BOSS系统架构设计及运营支撑经验，参与多次系统重大割接工作，2020年开始牵头AI技术在IT运维领域的研究及应用落地工作。从运维知识问答到运维A g e n t 运维智能体关键要素两大运维场景的建设多智能体协同的运维智能社会打造智慧运维Copilot 基于CVP架构（ChatGPT + VectorDB + Prompt），支撑大模型完成应用运维垂直领域故障问答。 Ø基于历史故障报告、运维手册、产品说明等文档构建运维语料Ø部署codellama-34B-int4模型，为IT问题提供解决方案 Agent工作流程分为四个阶段：任务规划>>API筛选/分配>>任务执行>>结果生成 Ø基于LLM的Agent能自主理解、规划决策、执行复杂任务，具备使用工具完成运维任务的潜力 Ø结合COT技术提出大模型运维应用开发范式，让大模型不仅会”作诗”，更要会”做事”。运维智能体的关键要素基于短期记忆体，实现多工具参数自动提取传递，串接组装执行流水线，执行较复杂任务调度，简化人机交互。 AgentEval目的是评估大模型理解任务、选择工具以及参数提取的能力通过参数提取准确率和工具调用准确率2个关键指标辅助评估大模型Agent能力和工具description质量，提升大模型任务规划质量。 PaaS大模型运维能力在某系统运维中完成落地具备Kubernetes各核心组件，及Kafka、Redis等多种开源通用中间件的故障自动处置能力，已覆盖xx种故障场景取代故障处理人员繁琐的登陆各主机手工执行工具/指令和日志收集，整体生产效率提升x0%以上。 >x0%生产效率提升 xxxx台覆盖核心系统共计xxxx台纳管主机，为x万余POD的健康运行保驾护航。 xx种故障场景 1n异常发现支持K8S告警、K8S组件日志（kubelet、kubeproxy等）、K8S GPT深度巡检结果的实时采集和灵活过滤，根据告警对象将会话推送至对应运维人员；使用codellama-34b-int4（基于专业运维数据训练的基座模型）为运维生人员生成告警解释，并提供处置建议； 3n处置执行通过大模型Agent调度运维执行组件执行运维操作，敏感操作支持短信验证码二次授权，处置接口支持主动询参，降低误操作风险。 SaaS大模型运维能力在某公司业务支撑系统运维中完成落地覆盖CRM系统个人、家庭、政企、新兴业务及CHBN融合业务等x0%的重点业务。拉通指标、日志、链路三类监控数据，形成故障定界能力。借助大模型进行调度，保障重点业务平稳运行。 x0%重点业务覆盖 >x5%故障定界准确率 SaaS故障发现 SaaS故障分析 SaaS故障恢复 SaaS应用发生告警执行相关处置策略，快速进行故障恢复调用深瞳故障定界能力，从四个维度进行故障定界。快速调出该异常的最关键信息，如告警对象、级别、影响范围等，辅助识别故障影响，便于定级。调用恢复验证能力，检测故障是否已经恢复基于历史故障给出建议，第一时间通知相关负责人，便于故障协同处理。 SaaS应用告警恢复持续打造面向数据库、中间件、信创操作系统等运维智能体，构建面向运维领域的智能体平台。 Agent能力（社会成员） Ø中国移动丰富的大型IT运维场景。Ø大模型智能运维产品已落地多家内部单位。Ø已实现Agent复杂任务代理技术。 Agent共创平台（社会生态） Ø中国信息通信研究院发挥电信业引领优势组织创新合作平台。Ø构建规范化、标准化的智慧运维社会。 Agent协同机制（社会制度） Ø中国移动与复旦大学人工智能团队推进智慧运维社会的组织调度理论与技术实现。Ø基座大模型的强化训练提高Agent能力。 Thanks 开放运维联盟高效运维社区DevOps时代荣誉出品感谢大家观看

点击免费查看完整报告

陈理华-大语言模型在 IT 运维领域的建设落地实践

大语言模型赋能运维新篇章

你可能感兴趣

刘志-从理念到落地：中小银行智能运维体系建设实践

刘逸伦-打造自适应AI运维智慧体大语言模型在软件日志运维的研究与实践

打造自适应AI运维智慧体：大语言模型在软件日志运维的实践

大语言模型在ICT运维领域的研究及应用-datafun

陈诗雁-LLM 在操作系统运维场景的现状、挑战和实践

陈彦霏-数字化赋能IT应急管理场景建设实践

企业架构方法论在零售服务领域的实践：让IT聚焦业务价值交付

5-陈泽昊-亿级金融系统智能运维的深度实践

陈定 - 从金融IT到金融科技，到数字化转型，基于资产管理行业趋势的思考

架构师特刊：联邦学习在金融领域的实践和落地困境

陈理华-大语言模型在 IT 运维领域的建设落地实践

你可能感兴趣

刘志-从理念到落地：中小银行智能运维体系建设实践

刘逸伦-打造自适应AI运维智慧体大语言模型在软件日志运维的研究与实践

打造自适应AI运维智慧体：大语言模型在软件日志运维的实践

大语言模型在ICT运维领域的研究及应用-datafun

陈诗雁-LLM 在操作系统运维场景的现状、挑战和实践

陈彦霏-数字化赋能IT应急管理场景建设实践

企业架构方法论在零售服务领域的实践：让IT聚焦业务价值交付

5-陈泽昊-亿级金融系统智能运维的深度实践

陈定 - 从金融IT到金融科技，到数字化转型，基于资产管 理行业趋势的思考

架构师特刊：联邦学习在金融领域的实践和落地困境

陈定 - 从金融IT到金融科技，到数字化转型，基于资产管理行业趋势的思考