您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[2024 第22届 GOPS 全球运维大会暨 XOps 技术创新峰会 · 深圳站]:陈理华-大语言模型在 IT 运维领域的建设落地实践 - 发现报告
当前位置:首页/行业研究/报告详情/

陈理华-大语言模型在 IT 运维领域的建设落地实践

AI智能总结
查看更多
陈理华-大语言模型在 IT 运维领域的建设落地实践

大语言模型赋能,开启运维新篇章 陈理华总监 陈理华 中移(动)信息技术有限公司/广州业务支撑中心总监 十余年省级CRM/BOSS系统架构设计及运营支撑经验,参与多次系统重大割接工作,2020年开始牵头AI技术在IT运维领域的研究及应用落地工作。 从运维知识问答到运维Agent 运维智能体关键要素 两大运维场景的建设 多智能体协同的运维智能社会 打造智慧运维Copilot 大模型助力运维数智化转型,成为智能运维专家 周边系统 1.02.03.0 租户接入 租户BOMCK8S 磐维 云平台 深瞳观智 可观测监控告警CMDB 运维工单 自动化AIOPS 能力开放智维-SDK智维-H5智维-API 孵化产品深瞳智维(小瞳AI)… 日常运维故障处理数据治理智慧巡检智慧工单故障发现故障定位数据配置 运维Copilot脚本助手告警处理故障处理故障复盘数据修复智慧报表资源检索故障演练故障预测数据稽核 智能体K8SAGENT磐维AGENTOBAGENTAntDBAGENTREDISAGENT… 智能体开发框架 低代码脚手架开发工具箱流程画布引擎智能体Tools管理代码解析组件长时记忆组件 智能体交互平台 智能体注册智能体通讯组件 智能体交互组件多智能体协同管理智能体解析器智能体召回增强 智能体通用组件 任务规划多轮询参 复杂任务代理知识库自主任务代理自评估工具 模型服务Model专属模型模型训练效果测评大模型流量控制推理部署/加速/API服务 … 基座模型AlertFMAgentFMTraceFMLogFM 通用大模型ChatGLM3-6bQwen-14bQwen-72bCodellama-34b… 基于CVP架构(ChatGPT+VectorDB+Prompt),支撑大模型完成应用运维垂直领域故障问答。 运维知识文档 (CSV、PDF、Word、PPT、URL、Json) 使用手册技术手册运维手册 业务说明运维数据排障经验 小瞳智能问答 故障类型识别指标智能检索处置策略建议 文件查询朔源业务咨询问答… 深瞳可观测平台 数据关联 文档拆分 用户问题 小瞳AIAgent 最终答案 流、式计算 分散化、片段化、多样化 文本切分TextSplitter 文本块文本块 文本块文本块 任务指令任务规划生成反馈 API选择任务执行… API平台(大量的包含Schema的API集合) 指令下发 结果反馈 复合计算 数据湖 嵌入式编码模型(Embedding文本数据向量化) 向量写入向量搜索 向量数据库(Chroma) 相似度匹配 用户问 题 + 提示词模板 + 匹配结果 LLM大模型 基于历史故障报告、运维手册、产品说明等文档构建运维语料 部署codellama-34B-int4模型,为IT问题提供解决方案 系统告警 故障发生,服务超时 自主 AIAgent 1-任务指令 2-任务规划 3-API选择 LLM 4-API调用 5-结果观察 循 环执行 6-生成反馈 API平台(大量的包含Schema的API集合) API 任1.先检查网络情况,确认网 务络状态; 2.再确认分布式服务控制组 规件状态是否正常 感知 划3….. 结服务节点状态异常,建议论1.平台拉起薪节点接管流量输2.当前节点重启 计划 �3重启完毕后接入 工具箱 健康度检查API组件状态检查API节点重启API 行动 节点检查API服务监控API API1API2API3… 自 主服务节点的状态检查完毕, 思可能问题是由于XX进程挂死,报错日志是…. Agent工作流程分为四个阶段: 任务规划>>API筛选/分配>>任务执行>>结果生成 考 生 成重启后服务超时问题不再 反�现效果达到预期 馈 基于LLM的Agent能自主理解、规划决策、执行复杂任务,具备使用工具完成运维任务的潜力 结合COT技术提出大模型运维应用开发范式,让大模型不仅会”作诗”,更要会”做事”。 运维智能体的关键要素 用户输入 任务规划 工具1执行 工具2执行 工具3执行 工具N执行 输出 工具2参数 输出 工具3参数 输出 工具N参数 输出 LLM大脑 短期记忆体 基于短期记忆体,实现多工具参数自动提取传递,串接组装执行流水线,执行较复杂任务调度,简化人机交互。 AgentEval Agent执行过程 AgentEval评估指标 指标1:ActionInput 参数提取准确率 指标2:Action工具调用准确率 AgentEval目的是评估大模型理解任务、选择工具以及参数提取的能力 通过参数提取准确率和工具调用准确率2个关键指标辅助评估大模型Agent能力和工具description质量,提升大模型任务规划质量。 Agent 参数提取 工具预召回 任务规划 基于Prompt的提取 APIschemas zero-shot LLM 工具选择 大脑 参数提取 工具选择准确率: 反 API执行 自 思100% 省1-5个工具准确率 结果生成 >90% AIOps能力 异常检测 根因定位 告警收敛 系统工具 主动询问参数 ReAct参数提取 工具集合 自动化运维 系统巡检 告警查询 重启操作 6-20个工具准确率 工具召回 工具注册 基于CVP的工具预召回模块提高工具选择准确率,APIschemasPrompt实现少量参数稳定提取,ReAct主动问询实现多参数灵活提取。 PaaS大模型运维能力在某系统运维中完成落地 xxxx台 纳管主机 覆盖核心系统共计xxxx台纳管主机, 为x万余POD的健康运行保驾护航。 xx种 故障场景 具备Kubernetes各核心组件,及Kafka、 Redis等多种开源通用中间件的故障自动 处置能力,已覆盖xx种故障场景 >x0% 生产效率提升 取代故障处理人员繁琐的登陆各主机 手工执行工具/指令和日志收集,整体 生产效率提升x0%以上。 1 异常发现 2 支持K8S告警、K8S组件日志(kubelet、kubeproxy等)、K8SGPT深度巡检结果的实时采集和灵活过滤,根据告警对象将会话推送至对应运维人员; 诊断分析 3 使用codellama-34b-int4(基于专业运维数据训练的基座模型)为运维生人员生成告警解释,并提供处置建议; 处置执行 通过大模型Agent调度运维执行组件执行运维操作,敏感操作支持短信验证码二次授权,处置接口支持主动询参,降低误操作风险。 快速调出该异常的最关键信息,如告警对象、级别、影响范围等,辅助识别故障影响,便于定级。 调用深瞳故障定界能力,从四个维度进行故障定界。 基于历史故障给出建议,第一时间通知相关负责人,便于故障协同处理。 执行相关处置策略,快速进行故障恢复 调用恢复验证能力,检测故障是否已经恢复 SaaS应用发生告警 SaaS应用告警恢复 SaaS大模型运维能力在某公司业务支撑系统运维中完成落地 拉通指标、日志、链路三类监控数据, 形成故障定界能力。借助大模型进行 调度,保障重点业务平稳运行。 >x5% 故障定界准确率 x0% 重点业务覆盖 覆盖CRM系统个人、家庭、政企、新 兴业务及CHBN融合业务等x0%的重 点业务。 SaaS故障发现 SaaS故障分析 SaaS故障恢复 产品研发推进 “3步走” 持续打造面向数据库、中间件、信创操作系统等运维智能体,构建面向运维领域的智能体平台。 L1(Tool) L2(ChatBot) L3(Copilot) L4(Agent) L5(Intelligence) 人类监督下完成明确任务,AI实现目标后结束工作。 接手人类工作,AI自主拆解目标,选择并使用工具完成工作并与人类通信。 Agent能力(社会成员) 中国移动丰富的大型IT运维场景。 大模型智能运维产品已落地多家内部单位。 已实现Agent复杂任务代理技术。 Agent共创平台(社会生态) 中国信息通信研究院发挥电信业引领优势组织创新合作平台。 构建规范化、标准化的智慧运维社会。 Agent协同机制(社会制度) 中国移动与复旦大学人工智能团队推进智慧运维社会的组织调度理论与技术实现。 基座大模型的强化训练提高Agent能力。 Thanks 开放运维联盟高效运维社区DevOps时代 荣誉出品 THANKS 感谢大家观看

你可能感兴趣

hot

刘志-从理念到落地:中小银行智能运维体系建设实践

金融
2023 DOIS DevOps 国际峰会 · 北京站暨 BizDevOps 企业峰会2023-10-08
hot

大语言模型在ICT运维领域的研究及应用-datafun

信息技术
DataFunSummit2023:大模型与AIGC峰会2023-08-08
hot

陈诗雁-LLM 在操作系统运维场景的现状、挑战和实践

信息技术
2024 第22届 GOPS 全球运维大会暨 XOps 技术创新峰会 · 深圳站2024-05-13
hot

陈彦霏-数字化赋能IT应急管理场景建设实践

信息技术
2024 第22届 GOPS 全球运维大会暨 XOps 技术创新峰会 · 深圳站2024-05-13