您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[-]:大模型在华为云数字化运维的全面探索和实践 - 发现报告
当前位置:首页/行业研究/报告详情/

大模型在华为云数字化运维的全面探索和实践

信息技术2024-12-04乔彦辉-亓***
AI智能总结
查看更多
大模型在华为云数字化运维的全面探索和实践

大模型在华为云数字化运维的全面探索和实践 演讲人:乔彦辉 目录 01 华为云智能运维发展之路 02 大模型使能运维规划 03 运维大模型难点和解法 04 总结和规划 0 华为云智能运维发展路线 从单点,到复杂,再到自动化 华为云AIOps发展之路-从单点,到复杂,再到自动化 •单场景智能运维,传统ML算•串并联智能运维,可视,可决策,•大模型使能运维,LLM+运维 法(2018-2020) 可执行(2021-2023) Copilot(2024~) 智能 •日志模版分析(2018) •云服务单指标异常检测(2019) 运维•告警智能压缩(2019) 场景•网络多级异常检测(2020) •硬件故障预测(2021) •变更命令分级智能识别(2023) •变更人员匹配度评估(2023) •安全生产自动稽查(2023) •变更风控驾驶舱(2023) 运维决策服务 •自然语言问答,运维信息查询 •运维知识检索 •故障自动总结 •故障案例推荐 算法服务 运维 运维Copilot 运维决策服务 数据服务 分析报表 智能分析报表 数据服务 运维算法 架构运维数据 运维智能决策 运维算法 运维数据 运维智能决策 运维小模型运维大模型 运维数据 运维•KPI,告警,日志•KPI,告警,日志 数据•变更数据 •运维人员流程数据 •运维语料 •运维私有知识库 02 大模型使能运维总体规划 聚焦高价值高门槛高人力场景,面向长期规划 大模型使能运维业务规划:聚焦2条核心价值流,全面辅助运维人效提升 聚焦高门槛,高价值,高人力场景,拥抱大模型提升运维人效 故障处理:2000+,平均参与人数10+(非自愈)事件处理:10000+,月均参与人:200+ 场景 WR故障处理流水线 阶段 起会 故障通报 影响评估 故障定界 故障恢复 恢复验证 故障复盘 痛点 重复故障拉取 通报内容生成繁琐,涉及大量人力 影响面评估难依赖少部分人 人工查看监控、告警系统查询信息,效率低 人工确认多个服务的恢复进展 故障信息多处,人工总结耗时高 机会点 相似性识别:基于文本相似WR自动化判重 内容生成:通过AI生成通报内容生成,并由值班经理确认后发布 NL2Query:提供统一对话式查询能力 NL2Query:提供对话式查询能力、支持查询告警,监控指标,变更、事件等信息相似故障信息推荐:故障预案推荐 NL2Query结合恢复步骤检测各云服务恢复情况 内容生成:自动生成故障复盘报告 场景 事件单处理流水线 阶段 事件受理 事件分流 事件解决 案例总结 定级不合理: 分流不合理:针对事件描述和客户实际诉求反复沟通,信息分流复杂度高 痛点 事件单定级不合理,需要重新沟通确认定级 解决方案覆盖率和准确率低,且消费难:资料分散、缺少工具快速管理和检索知识 案例没时间总结:案例书写耗时,质量和数量难以兼顾 机会点 智能分级:根据用户反馈结合大模型进行分级建议 智能派单:根据派单规则和算法实现智能派单 解决方案生成:检索知识库自动=生成解决方案 案例生成:基于事件单自动生成案例 运维知识检索 故障预案推荐 故障信息总结生成 事件解决方案生成 TOP 需求 问答式运维信息查询 构建运维盘古助手,聚焦运维人效提升,打造智能运维 新高地 1运维盘古助手-多触点构建 2运维CopilotStack 意图识别 运维Skill 意图增强 3运维大小模型协同计算 运维“小”模型-确定性量化运维“大”模型-内容理解和生成 4运维知识语料中心 流程云服务故障 规范模式库 云服务故障预案库 故障回溯报告 AICore 变更评估 Agent 故障报告生成 Agent 故障根因推 荐Agent 运维信息查询Agent 事件案例 运维对话语料 Sop文档风 险评估算法 故障智能根因算法 多轮意图理解模型 意图识别小模型 sop文档评估 变更命令评估 故障报告生成 运维信息查询 运维场景路由 故障根因推荐 运维内容检索 运维大小模型集成 运维工具系统集成 WeLink机器人 独立Web端 运维知识检索 WR 规范 变更 规范 事件规范 事件处理 方案生成 故障处理 预案推 荐 根因 诊断 故障分析 运维信息查询 查监控指标查告警查资源查日志查事件查关系 大模型辅助运维子场景 •定位:沉淀大模型使能运维标准方案,建设全面辅助问答交互能力,打造运维副驾驶 1 •多触点构建:构建运维助手多种触点模式,全面辅助运维场景,支持web,WeLink机器人和运维工具系统集成 2 运维提示 词工程 RAG 场景模型微调 盘古大模型 •运维CopilotStack:构建运维Copilot能力集,实现端到端运维对话,意图理解,Agent和Tools建设,和运维大模型集成,实现运维大语言模型端到端构建; 3 •运维大小模型协同计算:小模型聚焦确定性量化分析,大模型注重内容理解和生成 4 CloudCopilot框架SkillBuilder 数据管理 模型管理 •高质量运维知识语料中心:围绕运维知识数据收集,知识规范,知识管理和运维语料标注全面建设 03 运维大模型应用难点和解法 围绕语料,知识,意图理解和复杂决策以及新交互实现大模型应用运维的确定性 围绕运维大模型4大难点,构建6大方案 华为云运维助手端到端链路流程 接入端 运维助手 大模型结果 知识类回复 模型作答结果 意图路由分发 运维操作类服务 分发结果 任务匹配 Skill编 排层 知识增强检索 高频语料匹配 RAG 搜索召回 精排 知识答准率 模型作答 模型层 知识管理知识完整度 语料管理 数据层 标准问答对 产品文档 知识管理 切片 向量化 向量索引库 知识训练 管理 运维语料数据 语料收集 生成 评测 优化 模型部署 模型训练 模型管理 意图理解准确率 意图分发 (意图理解路由) 路由分发中控 问题改写 纠标准术多轮改 错语转换写 模型作答标注 知识检索标注 知识完备度标注 意图理解标注 标注平台 知识检索前改写 标准问答对 操作类回复 标准答案 客户问答 4大难点: •语料少,知识质量差 •大模型幻觉 •大模型逻辑推理难 •业务应用难,见效慢 6大方案: •运维语料数据增强 •全流程知识治理 •确定性运维意图理解 •增强RAG实践 •基于确定性决策实现大小模型协同故障 诊断方案 •多触点集成方案,提升业务生产力 运维语料数据增强:采用大模型合成数据和语料的持续迭代实现语料数据增强 面临的问题: 1获取语料难:原始真实语料少,如何获取真实问答语料 2真实语料少:冷启动阶段运维语料少 3运维语料持续治理难:运维语料数据配比和有效性证伪难 真 实真实问 应答 用阶段 故障处理报告 冷 启真实事件 动检索行为 阶收集 段 业务人员模拟问答 问答意图识别真实语料意图标注分析符合预期 运维语料生产过程 估 评 型 模 图 别 识 意 集 据 数 料 语 维 运 强 增 语料训练 通过提示词模版生成语料 关键点二:采用大模型合成数据快速构建语料数据 意图语料数据集修正 关键点三:构建真实语料意图标注能力,持续进行运维语料的有效治理 原始语料数据集 关键点一:围绕运维实际活动构建冷启动原始语料集,确保使用真实性和有效性 效果:1个月完成运维领域10+运维语料数据集的建设,语料质量80% 全流程运维知识治理:确定运维知识地图,明确职责边界,统一知识管理和存储,构建知识消费运营体系 关键点一:确定知识地图 关键点二:明确知识Owner和知识责任人 关键点三:统一知识管理和存储 事件管理流程 事件通报规范 面临的问题: WR运作规范 应急预案管理 规范 RAG 搜索召回 精排 模型作答 通用流程/规范/指导书 案例库 产品介绍文档 关键点四:知识消费治理 用户原始 问题 问题通用改写 向量搜索 自动标注 知识检索BadCase集 知识管理 知识解析 多种格式: DocxPptxXlsx 切片 向量化 向量索引库 (知识湖)关键词搜索 倒排索引库 (知识湖) 无知识 有知识 资料索引 知识覆盖率 【补知识】 知识检索准确 率【提效果】 事件案例 故障预案 运维流程规范 产品文档 云服务产品说明文档 云服务事件解决方案案例库 知识权限 问题监控 统计分析 知识应用 知识搜索知识推荐智能问答 知识产生 知识知识创建审核 知识发布知识发布 知识运营 知识数据管理 分类信息 产品信息 区域信息 知识Owner 1、制定领域知识管理流程和内容规范2、领域知识的生命周期管理(更新、整合、下架等) 知识责任人 1、负责知识的产生与更新,对知识投稿评审确认。2、及时响应知识纠错、问题与需求。 华为云运维领域涉及多种知识:流程规范知识,产品使用知识,内部案例wiki,知识治理和消费难 •如何选择知识? •如何治理知识? •如何管理知识? •如何消费知识? 效果:围绕事件知识,运维流程规范知识和产品知识,达成知识完整度:90%,知识准确率:85+% 确定性运维意图理解:多层路由,结合大小模型构建运维多场景智能问答意图识别能力 运维通用意图识别层 关键点二:结合文本相似分类小模型和大模型实现意图的快速分类路由 查询变更语料集 查询告警查询指标语 语料集 料集 智能意图路由层 意图路由层 知识问答 查询拓扑语料集 …… 关键点三:构建意图纠偏层,结合BadCase实现小概率错误的意图精准纠偏 运维私域知识检索关键字/正则 公域知识检索 槽位提取模块 基于提示词参数提取 指定式路由层 事件知识问答Agent故障处理Agent 关键点一:多层路由,简化多场景运维意图识别 通用embedding意图相似匹配分类 算法 意图识别层 默认Agent 面临的问题: 提示词工程-知识问答or操作判断 运维助手覆盖20+意图类别,新增意图周级迭代 运维skill问答 1精确控制意图分类? 模糊意图分类模型 相似意图精确匹配 skill意图纠偏模块 2解决大模型意图识别幻觉? 意图纠偏层 运维skill 纠偏 知识问 答纠偏 基于算法提取 意图改写 效果:意图识别准确率 盘古大模型作 答 查询变更 查询 告警 能力执行层 …… 从65%提升至80%+ 案例:结合分层意图路由,支持20+高频运维指令查询 查询告警查询监控指标 查询变更单查询交换机设备全栈拓扑 增强RAG实践:从知识问答改写到多路知识检索全面 故障咨询类 RAG 提升关键点一:结合提示词工程实现问题标准化和分类改写,明确检索意图 故障咨询类 意图改写层 用户问答 事件咨询问题标准化 事件问题分类 信息查询类 信息咨询类 RAG 面临的问题: 事件咨询问题提问不精确,意图缺失,影响知识检索的有效性,多种知识相互干扰, 基于prompt进行关键信息抽取 基于prompt构建问题分类器 协助操作类 RAG 协助操作类 RAG 问答对召回 回答存在幻觉问题 1如何理解真实知识问题? 2多种知识提升检索有效性? 检索层 问答对 关键点二:结合问答对,向量检索和关键词检索实现多路由检索提升检索准确率 向量搜索 搜索召回精排模型作答 关键词搜索向量搜索 数据层 档知 产品文 运维流程识 规范管 理 故障预案 事件案例 知识解析切片多种格式: Docx PptxXlsx 向量化 问答对向量 向量索引库 (知识湖) 倒排索引库 (知识湖) 案例:面向事件信息事前自动提取问题概要,事后多路检索提升大模型检索准确率 •原始事件单信息 云主机被释放了,但是没有通知,不应该是现在被释放? •大模型可能理解的意图 云主机释放之后,如果快速恢复服务? 云主机被释放没有通知原因是什么? 如何预防云主机被意外释放? 为什么云主机被释放? •意图改写后结果 大模型生成结果 效果:问题理解准确率:50%+提升至80%+,AI答准率:30%+提升至70%+ 关键点二:结合编排

你可能感兴趣

hot

大模型在运维低容错场景下的应用实践探索 - 傅建新

信息技术
XOps 风向标!GOPS 全球运维大会暨研运数智化技术峰会 2024 · 上海站2024-10-21
hot

黄金-趣丸科技在运维 AI Agent 的探索与实践

有色金属
2024 第22届 GOPS 全球运维大会暨 XOps 技术创新峰会 · 深圳站2024-05-13
hot

任志强-大模型Agent在AIOps运维场景的实践

信息技术
2024 第22届 GOPS 全球运维大会暨 XOps 技术创新峰会 · 深圳站2024-05-13
hot

大模型在日志运维场景的应用实践

信息技术
爱分析2023-11-15
hot

原玉娇-大模型在端到端交互测试的探索与实践

文化传媒
2024AI研发数字峰会AiDD北京站2024-11-17