AI智能总结
蚂蚁集团OpsGPT落地实践和技术开源 蒋炜(首之) 蚂蚁集团高级算法专家 5+年专注于AIOps领域,负责蚂蚁AIOps建设,从监控、应急到变更、容量领域的风险防控、效率提升、成本节约;10+篇相关专利,在ICSE、SoCC、ACL等顶会发表多篇论文。目前主要从事LLM+Ops方向,包括Ops领域垂类大模型以及结合Agent技术的产品应用 01O p s G P T项 目 起 源 02O p s G P T落 地 探 索 03O p s G P T未 来 演 进 04O p s G P T技 术 开 源 AIOps建设 围绕监控、应急、容量、变更、资金、基础设施6大核心领域建设AI智能化&自动化能力,实现风险降低、效率提升、成本节约 单场景单模型、基础模型在于问题的抽象通用 场景模型:领域算法模型,单场景服务基础模型:通用基座模型,多场景赋能 OpsGPT定义 •更多重人力投入场景围绕非结构化数据,人更擅长语言交流/文档记录/代码编写•时序/日志这种单来源数据分析交互性存疑,“可解释问题”更大的分析模型仍然无法求解•现有能力具备不错的情况下,继续使用,更应考虑进一步拓展智能化&自动化边界 时序大模型?智能告警、资源规划… Ops领域垂类LLM 日志大模型?业务布控、Error布控… OpsGPT落地探索 复杂多步骤推理 站在当前视角,通过定制微调可以解决单步骤任务、单步骤工具使用,但实际现实中的场景是复杂多步骤的,面向专业领域,LLM只能给出泛泛而谈的答案(包括ChatGPT),面向C端用户完全没有问题,面向B/P端专业场景没有用处,尤其是Ops这种严谨、专业、私有领域。LLM能逐步协助人来解决问题ORAgent能实际解决问题,核心在于PLANNER。 •严谨:逻辑严谨,容错率低•专业:专业领域,过程追溯•私有:知识私有,环境私有 从仿生学出发 “不同领域专家核心竞争力在于行业的长久沉淀,面向专业领域复杂问题的处理经验,即Planner” 大模型的劣势•大模型在多步推理的弱势,面向专业复杂问题无法处理 •大模型在多步推理的不可控性/不可解释-NextToken 人面向专业复杂事务处理具备丰富的经验•自我的摸索,多路交互探索,最终形成一条成功路径存于脑中 •老人带新人,口头传述/文档记录=>教会新人面向问题该如何处理 参考人的经验具备模式,我们期望通过DevOpsEKG(EventicKnowledge Graph),从多源数据中获取复杂问题处理经验并结构化存储于EKG中,结合通过LLM+EKG实现现实领域复杂问题处理。 围绕EKG,协同LLM、Agent框架演进 多步推理-EKG推理 图谱推理•游走推理:针对用户Query,确认用户意图并指导操作 •更新推理:针对用户Query指引实现图谱数据自动更新•修正推理:LLM修正图谱中存在的节点缺失/错误/冗余•探索推理:LLM多路探索推理,成功路径图谱节点沉淀•+FunctionCall,面向平台/用户Query,流程自动化执行 多步推理-EKG构建 以往SOP的实现通过人工操作/代码编写,现在可通过交互式增删改语义节点(SemanticFunction)实现;就像以往学习Python等语言来编程,每套语言有自己的规则范式,大模型出来后,我们期望让大模型实现所有,但就目前现状看,我们更应该抽象一层,定义一套新的语言来保障高可用性,即面向过程的语言编写。 单步任务-所需Tool 从大模型的劣势出发 •大模型缺少实时信息=>查询Tool•大模型缺少环境交互=>操作Tool•大模型事实问答薄弱=>RAG增强•大模型多模分析薄弱=>AI小模型•大模型数值计算薄弱=>沙箱环境 单步任务–Tool接入 OpsGPT能力范畴 OpsGPT模型构建 PART 03OpsGPT未来演进 根据需要可添加介绍说明也可删除 产品演进 各产品集成 LLM能力嵌入原有各产品平台,用户按照原有信息获取/操作习惯到各平台操作--单平台各自定制界面改变 大产品统一 用户无需到各产品操作,统一产品,通过对话即可实现所有信息查询/操作--统一产品界面多功能集成 浏览器插件 提供浏览器插件,用户到原有信息获取/操作平台,多种操作交互模式--单平台统一能力界面改变 技术演进 动线采集 探索推理 现有EKG的构建更多的依赖人工输入,可拓展性较弱,参照WebGPT,能否实现人的操作行为自动化采集+数据清洗 不可预估、没有参考事件的发生,大模型如何能利用好现有信息,自动探索推理,并将成功探索路径图谱沉淀 信息提取 多模对齐 现在单场景定制微调提升信息提取的准确性,能否围绕DevOps领域提供好信息提取基座,无需微调直接使用 现有多模态的诉求,通过ToolLearning实现,能否直接让OpsGPT能比较好的理解时序、图像等其他模态数据 系统理解 如何让LLM理解大型业务系统,而不是停留在片段级的代码理解和生成,只有理解大型系统的业务逻辑,可能Dev+Ops的范式才能真正变革 PART 04OpsGPT技术开源 根据需要可添加介绍说明也可删除 为什么要做开源 资源短缺 训练资源短缺,如何尽可能地提供统一基座(Base+Chat),方便各场景直接使用OR微调即可满足需求 行业标准 NLP、CV的发展离不开业界标准的Benchmark,有了问题的定义以及目标,才能不断催生技术的迭代演进 角度更多 大模型核心在于场景的定义,并在此基础上数据的构建和积累,各方多角度问题定义,数据贡献积累,完善统一基座 开源项目简介 DevOpsChatBot DevOpsModel DevOps垂直领域基座模型(Base+Chat),方便直接使用OR微调使用 产品应用,围绕Agent(Multi-Agent交互、ToolLearning、RAG)结合KG等技术 https://github.com/codefuse-ai/codefuse-chatbot https://github.com/codefuse-ai/CodeFuse-DevOps-Model DevOpsEval DevOps领域大模型专属评测集,包含知识问答、领域任务和通用任务 https://github.com/codefuse-ai/codefuse-devops-eval 高效运维社区DevOps时代 荣誉出品 感谢大家观看