行业研究公司研究宏观策略财报招股书会议纪要海南封关低空经济 DeepSeek AIGC 大模型

蒋炜-蚂蚁集团 OpsGPT 落地实践和技术开源

信息技术2024-05-132024 第22届 GOPS 全球运维大会暨 XOps 技术创新峰会 · 深圳站庄***

AI智能总结

蚂蚁集团OpsGPT落地实践和技术开源

OpsGPT项目起源

蚂蚁集团围绕监控、应急、容量、变更、资金、基础设施6大核心领域建设AI智能化&自动化能力，实现风险降低、效率提升、成本节约。OpsGPT项目旨在解决更多重人力投入场景，特别是围绕非结构化数据，利用人擅长语言交流/文档记录/代码编写的优势，拓展智能化&自动化边界。

OpsGPT落地探索

复杂多步骤推理

大模型劣势：现有LLM在多步推理中表现不足，无法处理专业领域复杂问题，且推理过程不可控、不可解释。
人类经验借鉴：通过DevOpsEKG（EventicKnowledge Graph）从多源数据中获取复杂问题处理经验并结构化存储，结合LLM+EKG实现现实领域复杂问题处理。
多步推理实现：围绕EKG，协同LLM、Agent框架演进，包括图谱推理（游走、更新、修正、探索）和FunctionCall实现流程自动化。

单步任务-所需Tool

大模型不足：缺少实时信息、环境交互、事实问答、多模分析、数值计算能力。
解决方案：通过查询Tool、操作Tool、RAG增强、AI小模型、沙箱环境等弥补大模型短板。

OpsGPT能力范畴

模型构建：结合EKG、LLM、Agent等技术，实现多步推理和单步任务处理。

OpsGPT未来演进

产品演进

各产品集成：LLM能力嵌入原有各产品平台，用户按原有习惯操作。
大产品统一：用户无需切换平台，通过对话实现所有信息查询/操作。
浏览器插件：提供浏览器插件，增强原有平台操作交互模式。

技术演进

动线采集：探索自动化采集人的操作行为并清洗数据。
不可预估事件处理：大模型如何利用现有信息自动探索推理并沉淀成功路径。
信息提取：构建DevOps领域信息提取基座，无需微调直接使用。
多模对齐：通过ToolLearning实现OpsGPT理解时序、图像等模态数据。
系统理解：让LLM理解大型业务系统，推动Dev+Ops范式变革。

OpsGPT技术开源

为什么要做开源

资源短缺：提供统一基座（Base+Chat），方便各场景直接使用或微调。
行业标准：推动NLP、CV领域技术迭代演进。
角度更多：多角度问题定义和数据贡献，完善统一基座。

开源项目简介

DevOpsChatBot GitHub

DevOpsModel GitHub
DevOpsEval：DevOps领域大模型专属评测集，包含知识问答、领域任务和通用任务。
- DevOpsEval GitHub

蚂蚁集团OpsGPT落地实践和技术开源蒋炜（首之）蚂蚁集团高级算法专家 5+年专注于AIOps领域，负责蚂蚁AIOps建设，从监控、应急到变更、容量领域的风险防控、效率提升、成本节约；10+篇相关专利，在ICSE、SoCC、ACL等顶会发表多篇论文。目前主要从事LLM+Ops方向，包括Ops领域垂类大模型以及结合Agent技术的产品应用 01O p s G P T项目起源 02O p s G P T落地探索 03O p s G P T未来演进 04O p s G P T技术开源 AIOps建设围绕监控、应急、容量、变更、资金、基础设施6大核心领域建设AI智能化&自动化能力，实现风险降低、效率提升、成本节约单场景单模型、基础模型在于问题的抽象通用场景模型：领域算法模型，单场景服务基础模型：通用基座模型，多场景赋能 OpsGPT定义 •更多重人力投入场景围绕非结构化数据，人更擅长语言交流/文档记录/代码编写•时序/日志这种单来源数据分析交互性存疑，“可解释问题”更大的分析模型仍然无法求解•现有能力具备不错的情况下，继续使用，更应考虑进一步拓展智能化&自动化边界时序大模型？智能告警、资源规划… Ops领域垂类LLM 日志大模型？业务布控、Error布控… OpsGPT落地探索复杂多步骤推理站在当前视角，通过定制微调可以解决单步骤任务、单步骤工具使用，但实际现实中的场景是复杂多步骤的，面向专业领域，LLM只能给出泛泛而谈的答案（包括ChatGPT），面向C端用户完全没有问题，面向B/P端专业场景没有用处，尤其是Ops这种严谨、专业、私有领域。LLM能逐步协助人来解决问题ORAgent能实际解决问题，核心在于PLANNER。 •严谨：逻辑严谨，容错率低•专业：专业领域，过程追溯•私有：知识私有，环境私有从仿生学出发 “不同领域专家核心竞争力在于行业的长久沉淀，面向专业领域复杂问题的处理经验，即Planner” 大模型的劣势•大模型在多步推理的弱势，面向专业复杂问题无法处理 •大模型在多步推理的不可控性/不可解释-NextToken 人面向专业复杂事务处理具备丰富的经验•自我的摸索，多路交互探索，最终形成一条成功路径存于脑中 •老人带新人，口头传述/文档记录=>教会新人面向问题该如何处理参考人的经验具备模式，我们期望通过DevOpsEKG（EventicKnowledge Graph），从多源数据中获取复杂问题处理经验并结构化存储于EKG中，结合通过LLM+EKG实现现实领域复杂问题处理。围绕EKG，协同LLM、Agent框架演进多步推理-EKG推理图谱推理•游走推理：针对用户Query，确认用户意图并指导操作 •更新推理：针对用户Query指引实现图谱数据自动更新•修正推理：LLM修正图谱中存在的节点缺失/错误/冗余•探索推理：LLM多路探索推理，成功路径图谱节点沉淀•+FunctionCall，面向平台/用户Query，流程自动化执行多步推理-EKG构建以往SOP的实现通过人工操作/代码编写，现在可通过交互式增删改语义节点（SemanticFunction）实现；就像以往学习Python等语言来编程，每套语言有自己的规则范式，大模型出来后，我们期望让大模型实现所有，但就目前现状看，我们更应该抽象一层，定义一套新的语言来保障高可用性，即面向过程的语言编写。单步任务-所需Tool 从大模型的劣势出发 •大模型缺少实时信息=>查询Tool•大模型缺少环境交互=>操作Tool•大模型事实问答薄弱=>RAG增强•大模型多模分析薄弱=>AI小模型•大模型数值计算薄弱=>沙箱环境单步任务–Tool接入 OpsGPT能力范畴 OpsGPT模型构建 PART 03OpsGPT未来演进根据需要可添加介绍说明也可删除产品演进各产品集成 LLM能力嵌入原有各产品平台，用户按照原有信息获取/操作习惯到各平台操作--单平台各自定制界面改变大产品统一用户无需到各产品操作，统一产品，通过对话即可实现所有信息查询/操作--统一产品界面多功能集成浏览器插件提供浏览器插件，用户到原有信息获取/操作平台，多种操作交互模式--单平台统一能力界面改变技术演进动线采集探索推理现有EKG的构建更多的依赖人工输入，可拓展性较弱，参照WebGPT，能否实现人的操作行为自动化采集+数据清洗不可预估、没有参考事件的发生，大模型如何能利用好现有信息，自动探索推理，并将成功探索路径图谱沉淀信息提取多模对齐现在单场景定制微调提升信息提取的准确性，能否围绕DevOps领域提供好信息提取基座，无需微调直接使用现有多模态的诉求，通过ToolLearning实现，能否直接让OpsGPT能比较好的理解时序、图像等其他模态数据系统理解如何让LLM理解大型业务系统，而不是停留在片段级的代码理解和生成，只有理解大型系统的业务逻辑，可能Dev+Ops的范式才能真正变革 PART 04OpsGPT技术开源根据需要可添加介绍说明也可删除为什么要做开源资源短缺训练资源短缺，如何尽可能地提供统一基座（Base+Chat），方便各场景直接使用OR微调即可满足需求行业标准 NLP、CV的发展离不开业界标准的Benchmark，有了问题的定义以及目标，才能不断催生技术的迭代演进角度更多大模型核心在于场景的定义，并在此基础上数据的构建和积累，各方多角度问题定义，数据贡献积累，完善统一基座开源项目简介 DevOpsChatBot DevOpsModel DevOps垂直领域基座模型（Base+Chat），方便直接使用OR微调使用产品应用，围绕Agent（Multi-Agent交互、ToolLearning、RAG）结合KG等技术 https://github.com/codefuse-ai/codefuse-chatbot https://github.com/codefuse-ai/CodeFuse-DevOps-Model DevOpsEval DevOps领域大模型专属评测集，包含知识问答、领域任务和通用任务 https://github.com/codefuse-ai/codefuse-devops-eval 高效运维社区DevOps时代荣誉出品感谢大家观看

点击免费查看完整报告