您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[2024 第22届 GOPS 全球运维大会暨 XOps 技术创新峰会 · 深圳站]:陈理华-大语言模型在 IT 运维领域的建设落地实践 - 发现报告

陈理华-大语言模型在 IT 运维领域的建设落地实践

AI智能总结
查看更多
陈理华-大语言模型在 IT 运维领域的建设落地实践

大语言模型赋能,开启运维新篇章 陈理华总监 陈理华 中移(动)信息技术有限公司/广州业务支撑中心总监 十余年省级CRM/BOSS系统架构设计及运营支撑经验,参与多次系统重大割接工作,2020年开始牵头AI技术在IT运维领域的研究及应用落地工作。 从 运 维 知 识 问 答 到 运 维A g e n t 运 维 智 能 体 关 键 要 素 两 大 运 维 场 景 的 建 设 多 智 能 体 协 同 的 运 维 智 能 社 会 打造智慧运维Copilot 基于CVP架构(ChatGPT + VectorDB + Prompt),支撑大模型完成应用运维垂直领域故障问答。 Ø基于历史故障报告、运维手册、产品说明等文档构建运维语料Ø部署codellama-34B-int4模型,为IT问题提供解决方案 Agent工作流程分为四个阶段:任务规划>>API筛选/分配>>任务执行>>结果生成 Ø基于LLM的Agent能自主理解、规划决策、执行复杂任务,具备使用工具完成运维任务的潜力 Ø结合COT技术提出大模型运维应用开发范式,让大模型不仅会”作诗”,更要会”做事”。 运维智能体的关键要素 基于短期记忆体,实现多工具参数自动提取传递,串接组装执行流水线,执行较复杂任务调度,简化人机交互。 AgentEval目的是评估大模型理解任务、选择工具以及参数提取的能力 通过参数提取准确率和工具调用准确率2个关键指标辅助评估大模型Agent能力和工具description质量,提升大模型任务规划质量。 PaaS大模型运维能力在某系统运维中完成落地 具备Kubernetes各核心组件,及Kafka、Redis等多种开源通用中间件的故障自动处置能力,已覆盖xx种故障场景 取代故障处理人员繁琐的登陆各主机手工执行工具/指令和日志收集,整体生产效率提升x0%以上。 >x0%生产效率提升 xxxx台 覆盖核心系统共计xxxx台纳管主机,为x万余POD的健康运行保驾护航。 xx种故障场景 1n异常发现 支持K8S告警、K8S组件日志(kubelet、kubeproxy等)、K8S GPT深度巡检结果的实时采集和灵活过滤,根据告警对象将会话推送至对应运维人员; 使用codellama-34b-int4(基于专业运维数据训练的基座模型)为运维生人员生成告警解释,并提供处置建议; 3n处置执行 通过大模型Agent调度运维执行组件执行运维操作,敏感操作支持短信验证码二次授权,处置接口支持主动询参,降低误操作风险。 SaaS大模型运维能力在某公司业务支撑系统运维中完成落地 覆盖CRM系统个人、家庭、政企、新兴业务及CHBN融合业务等x0%的重点业务。 拉通指标、日志、链路三类监控数据,形成故障定界能力。借助大模型进行调度,保障重点业务平稳运行。 x0%重点业务覆盖 >x5%故障定界准确率 SaaS故障发现 SaaS故障分析 SaaS故障恢复 SaaS应用发生告警 执行相关处置策略,快速进行故障恢复 调用深瞳故障定界能力,从四个维度进行故障定界。 快速调出该异常的最关键信息,如告警对象、级别、影响范围等,辅助识别故障影响,便于定级。 调用恢复验证能力,检测故障是否已经恢复 基于历史故障给出建议,第一时间通知相关负责人,便于故障协同处理。 SaaS应用告警恢复 持续打造面向数据库、中间件、信创操作系统等运维智能体,构建面向运维领域的智能体平台。 Agent能力(社会成员) Ø中国移动丰富的大型IT运维场景。Ø大模型智能运维产品已落地多家内部单位。Ø已实现Agent复杂任务代理技术。 Agent共创平台(社会生态) Ø中国信息通信研究院发挥电信业引领优势组织创新合作平台。Ø构建规范化、标准化的智慧运维社会。 Agent协同机制(社会制度) Ø中国移动与复旦大学人工智能团队推进智慧运维社会的组织调度理论与技术实现。Ø基座大模型的强化训练提高Agent能力。 Thanks 开放运维联盟高效运维社区DevOps时代荣誉出品 感谢大家观看