全景运维地图 AI时代的运维技术创新和实践 新华三集团智能管理与运维产品线总经理敖襄桥 AIAgent慢思考应用实现智能运维 由LLM驱动的自主智能体系统的架构 记忆 智能体 交互协作 智能体 智能体 自主决策 自动执行 行动 规划 工具 长期记忆 短期记忆 大模型从“快思考”到“慢思考” 人脑认知系统-阶段1 直觉系统,本能反应、快速、例行 一个快速自动生成的过程 人脑认知系统-阶段2 逻辑分析系统,归纳、推理 一个深思熟虑的过程 大模型认知系统-阶段1 知识系统,关联、查找、快速、例行 大模型认知系统-阶段2 思维链,上下文关联、摘要、推理 一个提示词快速问答的过程 一个分步骤引导深思熟虑的过程 大模型展现“类思考”能力,可应对更多复杂和多变的任务 2024.2 OpenAI发布文生视频模型Sora,视频生成代际跃迁 2024.9 2022.11 2023.11 GPT-O1,引 入思维链复杂推理能力 大语言模型进入公众视野,开启人工智能Iphone时刻 GPTs+AssistantsAPI:初级Agent形态与GPT生态构建 2024.5 GPT-4o,多模态能力再提升 API CLI SQL Python 更多 反射自我反思思维链子目标拆解 大模型复杂推理能力大幅增强,“数智企业”或将应用和升级 企业依赖高质量的网络联接实现数智化转型,高质量的网络运维需要满足: 全景的可视运维提前的风险感知智能的排障优化 网络规模不断扩大,难以全面监控和评估整网资源状态,需要一张基于全局视角的整合多维数据的动态网络拓扑图 业务线上化、实时化趋势愈发明显,网络频繁变更引发风险,可视化的仿真验证支撑业务变更需求 运维场景复杂,故障定位准确性欠缺,如何基于持续升级的AI能力实现高效的故障根因识别和自愈是亟待解决的关键问题 多维数据 意图洞察 意图 &工具 一图洞悉全局 多图VS一图 数据 要素 智能网元 内置AI算法 网络规划 全景运维地图 推理决策 运维大模型 AIAgent 新服务一脑智能决策 模式人工辅助VS自决策 “一图”协同“一脑”创新,为各行各业描绘智能化转型画卷 全景运维地图之技术探索和实践落地 全景运维地图,六大能力构建高效网络运维体系 全景运维地图 全景可视全量仿真全路径检测 全因子导航全流程追溯全场景赋智 整合全网信息,统一建模,网络、设备、应用一图呈现 真实模拟网络转发行为以预防风险,提供策略下发的数据支持 采集多维数据,结合用户输入意图实现网络变更场景的行为验证 响应差异化业务需求,按需自动进行策略调整,达成网络性能的即时优化 整网信息全跟踪,内置AI算法,智能推理故障根因 基于灵犀大模型,AIAgent在规-建-维-优全流程得以应用落地 看的清看的远看的准 实时、动态、高清 方案架构 数据服务 数据引擎 数据中台数据接入 网络拓扑应用拓扑搜索定位路径导航智能分析 拓扑引擎仿真引擎分析引擎 数据加工 控制器 数据清洗 分析器 数据关联 第三方系统 数据整合 离线导入 基础网络 传统区 SDN区 异构SDN区 关键价值 多样数据接入 单厂商VS全网设备以及第三方系统 AI拓扑还原 离散静态VS多维度动态拓扑模型 资源精细可视 多级层层下钻,真正看清网络全貌 痛点: 传统网络业务变更前,用户难以对网络和应用做到准确的风险评估 价值:快速识别隐患,提前预警问题 零影响 生产态和设计态物理隔离 多场景 单一场景VS复杂场景 在线/离线仿真 异构网络统一建模,多类型网元仿真Overlay/UnderlayIPv4&IPv6,关键业务场景全覆盖 容量仿真、连通性仿真、全网影响评估 全周期 单一步骤VS全生命周期 网络规划 网络变更 网络扩容 网络优化 网络配置 待使用DC美工输出版本 40%的网络故障由于配置错误导致 一次网络变更的风险评估平均耗时3天 严重依赖个人经验 潜在风险无法及时排除 1:1构建仿真网络 场景丰富,多维能力 仿真目标:依托详尽的网元配置数据、拓扑数据,运行数据等精准模拟网络设备间动态交互过程以预测性能瓶颈、优化网络架构、评估新业务部署影响 行为分析被动到主动:预定义意图验证,监 控重点业务 全路径检测,保障用户意图按需达成 检查出故障路径 还原完整路径 价值:验证网络实际转发行为是否与用户的业务意图一致 定期采集 粗粒度到细粒度:亚秒级别采集 真实环境数据 精准建模 从Underlay到Overlay:多维 表项分层建模,精准模拟 应用场景:网络仿真下发配置变更后确认变更是否符合预期、是否引入问题 复杂运维场景下的人工选路--》“自动导航”式的调优选路 挑战价值 网络变化黑盒,被动响应 •人工制定选路策略存在偏差 •调整策略的响应速度滞后 难以溯源 •流量调度变化不可视 •策略优化没有依据 1、生产业务 2、路径状态 6、确认下发 5、预览路径调整链路负载变化 实时在线优化 •人工调度VS自动导航 •被动调整VS时延、丢包、带宽、时间段等因子主动驱动 路径回溯 •流量路径跟踪,端到端展示隧道路径历史事件 3、触发调优4、预览路径变化 挑战价值 1小时 断在哪里? 日志、告警、探测数据割裂,靠单一指标难以精确判断问题 5分钟 •排障平均时长 v 端到端监控 网络规模庞大,节点数量众多,端到端监测任务变得繁重且复杂 从无线到有线 从以太全光到PON网络 •端到端展示 以全景运维地图作为入口,展示端到端的通断排障能力 使用更 简单 AI对话实现意图获取 •机器语言VS自然语言 •学习使用成本高VS易于操作 体验更 直观 AI联动全景运维地图 •联动呈现多维数据,直观感知 •更好地理解系统,提高使用满意度 排障更 高效 AI高效智能修复 •人工辅助VS独立思考、调用工具 •基于思维链流程进行运维诊断,提升复杂场景排障效率 挑战:很多情况下的运维问题比较复杂,依赖专家经验人工推理分析,运维诊断效率低 全景运维地图 持续助力企业数智化转型