llew 华为园区网络智能运维技术白皮书 TO 文档版本01 发布日期2023-05-24 eview Onlyfor 华为技术有限公司 HUAWEI 版权所有华为技术有限公司2023。1保留一切权利。 非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传 播。 商标声明 orevi HUAWEI和其他华为商标均为华为技术有限公司的商标。 本文档提及的其他所有商标或注册商标,由各自的所有人拥有。 注意 您购买的产品、服务或特性等应受华为公司商业合同和条款的约束,本文档中描述的全部或部分产品、服务或特性可能不在您的购买或使用范围之内。除非合同另有约定,华为公司对本文档内容不做任何明示或暗示的声明或保证。 Onlyforpreview 由于产品版本升级或其他原因,本文档内容会不定期进行更新。除非另有约定,本文档仅作为使用指导,本 文档中的所有陈述、信息和建议不构成任何明示或暗示的担保。 华为技术有限公司 地址: O深n圳市ly龙f岗o区坂rp田华r为e总v部i办e公w楼邮编:518129 网址:https://e.huawei.com 文档版本01(2023-05-24)版权所有华为技术有限公司i 华为园区网络智能运维技术白皮书 目录 review 目录 1摘要. 2背景和挑战 2 2.1数字化转型时代 2.2以设备为中心的“救火式”运维,难以满足数字化空间需求 2.3“以体验为中心”的网络运维理念 3华为基于AI的园区网络智能运维解决方案 3.1相比传统运维方案,网络架构有什么变化3.2流程是怎样的 4关键技术. 4.1秒级的海量数据汇集 4.2体验可视化管理4.2.1无线健康度.. 4.2.2用户旅程回放 4.2.3无线VIP用户保障. 4.3数据分析一一基于大数据分析和机器学习识别故障和根因定位4.3.1基于故障规则库,精确匹配故障场景4.3.2基于机器学习构建动态基线,识别潜在故障 10 4.3.3相关性分析/关联指标分析,寻找根因 4.4调优 13 4.4.1仿真调优 4.4.2智能调优. 14 4.4.2.1原理介绍 15 4.4.2.2容量调优... 15 4.4.2.3覆盖调优. 15 4.4.2.4干扰调优.. 4.4.2.5AI漫游 .16 4.5有线网络健康度评估 18 4.5.1问题分析识别原理4.5.1.1端口闪断问题 22 4.5.1.2端口误包问题, .22 文档版本01(2023-05-24)版权所有华为技术有限公司 ii 华为园区网络智能运维技术白皮书目录 4.5.1.3二层环路问题 4.5.1.4疑似光链路故障.24 4.5.2网络健康度检测原理,.25 4.6应用分析,.26 4.7无线定位,..30 4.8SD-WAN排障运维...32 5智能运维应用举例.34 5.1通过“用户旅程回放”定位历史频繁掉线问题.34 5.2“主动运维”及时发现弱信号覆盖问题.35 5.3“主动运维”发现无线网络干扰源.36 5.4“主动运维”发现“高信道利用率”问题,并诊断根因 5.5通过性能指标关联分析,检测某用户差体验的问题根因, 5.6通过“协议回放”,诊断某用户的接入失败故障根因 5.7通过“应用分析”,对某用户的会议质差进行故障定界41 6A缩略语. Onlyforprevi Onlyforpreview 文档版本01(2023-05-24)版权所有华为技术有限公司ii 华为园区网络智能运维技术白皮书 1摘要 Only 摘要 1摘要 网络是数字化的基座,数字化转型带来终端和网络规模的增加、业务模型的多样和复杂,但网络运维的资源和人力,却没有得到同比例的增长。传统“以设备为中心”的网络运维,无法感知用户和业务体验,被动响应“故障”发生,难以满足数字化转型时代的用户和业务体验保障需求。 这份白皮书描述了“以体验为中心”的园区网络运维理念,以及华为基于大数据和AI实现园区网络智能运维的解决方案。 华为CampusInsight园区网络智能分析器,颠覆传统聚焦网络和设备资源状态的监控方 式,通过StreamingTelemetry实时采集网络数据和指标,利用大数据分析、人工智能 ony 算法学习网络模型并识别故障模式,帮助运维人员主动发现85%的潜在网络问题,并识别根因和主动修复,打造高品质的园区网络业务体验。 Onlyforpreview 文档版本01(2023-05-24)版权所有华为技术有限公司1 华为园区网络智能运维技术白皮书2背景和挑战 preview for 2背景和挑战 2.1数字化转型时代 我们处在快速的数字化转型时代,包括教育机构、制造工厂、办公大楼、政府机构、医疗机构等行业都在构建数字化空间,从而提升研发、生产和市场效率,并且更好地 满足客户期望、提升客户体验。 IDG的数字化商业转型状况报告指出,52%的高管认为“成为数字化业务意味着通过 移动、数据访问和辅助流程等工具来提高员工的生产率”。接近一半的高管(49%),也 对于46%的决策者来说,数字化转型意味若满足客户体验期望。另外有44%的人认为这意味着可以通过数据收集和分析来理解客户需求。 2.2以设备为中心的“救火式”运维,难以满足数字化空间需 求 数字化转型提升生产效率和客户体验的同时,也带来园区网络的巨大变化。 首先是终端数量的急剧增长。以IoT终端为例,2018年的全球物联网联接数量已达到70亿,其中80%为无线个域网和无线局域网,而且仍然在以17%的年增长率增长。 除此之外,更多的数字化办公、生产、视频监控等终端接入网络。 其次,终端类型、操作系统类型、业务类型、流量模型的持续多样和复杂化。但同时,网络运维的资源和人力,没有得到同比例的增长,这使得“以设备为中心”的“救火式”运维难以满足数字化转型的需求。 最后,数字化空间对故障的处理和恢复时间的容忍度在降低。越来越多的面向生产和客户服务的数字化业务产生,比如医疗场景的自动分药系统、商业的无人支付系统、仓储的自动导引运输车(AGV),这些数字化业务对故障的处理和恢复时间的容忍度远远低于普通的办公业务。 以设备为中心的“救火式”运维,是当下园区网络的主要运维手段。它有两个典型特 征: 1)以设备为中心,无法感知体验。 文档版本01(2023-05-24)版权所有华为技术有限公司2 华为园区网络智能运维技术白皮书2背景和挑战 传统的网络管理是以设备为中心的,网管提供设备管理、拓扑管理、告警配置等功能,运维人员通过网管监控拓扑、告警来获知网络的异常。 然而,随着终端数量的增多、数字化业务的多样化,设备的正常运转已经无法代表用户和业务体验的正常。举例:AP设备正常运转,但如果存在很强的同频干扰,将导致AP服务的无线终端体验很差;网络设备正常运转,但如果存在QoS的配置错误,将导致某些应用的体验指标很差。 2)被动响应“故障”发生,依赖现场定位和修复,故障恢复时间长。 网络运维人员,时刻等待着响应故障,尤其是一些重大活动、重大事件需要保障时。旦出现故障,运维人员第一时间查看网络拓扑,命令行登录设备定位故障,60%以上的情境需要到达故障现场,针对已经消失的故障,需要等待故障复现或者尝试对故障进行复现。同时无线化进一步加剧了故障修复的复杂度,因为无线环境的复杂导致90%以上的问题需要现场定位。 2.3“以体验为中心”的网络运维理念 基于“以设备为中心”的网络管理运维手段,无法满足数字化新空间的需求。“以设备运维理念,包含两个方面: 1)感知体验、对体验进行可视化管理,包括: 对单个用户的360°体验可视化和旅程回放 对全局用户的体验可视化 2)主动识别用户和业务的体验问题,发现潜在故障并识别根因,最终给出修复建议甚至自动修复,而非被动响应: 故障发生,第一时间感知识别出体验差的用户和应用 识别潜在问题,提前消除问题 On对l问y题f或o故r障p,进r行e根v因i定e位,给出修复建议甚至自动修复 文档版本01(2023-05-24)版权所有华为技术有限公司3 华为园区网络智能运维技术白皮书 3华为基于AI的园区网络智能运维解决方案 preview 3华为基于AI的园区网络智能运维解决方案 3.1相比传统运维方案,网络架构有什么变化 基于“以体验为中心”的运维理念构建的园区网络架构,相比较传统的园区网络运维方案,有如下变化。 1)最大的变化是,通过网络智能分析器基于大数据和AI的智能分析,感知用户和应用的体验、发现故障/潜在故障和并识别根因。并将结果通过符合IT运维人员的工作思路,友好地展示出来。 2)为了支撑网络智能分析器的智能分析,网络设备具备数据采集和一定边缘智能分析能力,并进行实时地数据上报。 3.2流程是怎样的 指标采集/边缘分析数据上报汇集数据存储数据分析结果展示修复建议 指标采集/边缘分析 网络设备作为网络的触手,采集终端、设备和应用各个维度的指标和信息,包括终端接入的日志(包括协议交互)、终端性能指标、射频性能指标、设备性能指标、音视频业务性能指标等等。 有些指标(比如音视频业务性能指标)需要在边缘设备进行初步分析。 数据汇集数据存储 网络设备将采集的指标数据上报给智能分析器。智能分析器汇集秒级的海量数据。智能分析器对汇集的数据进行存储。 文档版本01(2023-05-24)版权所有华为技术有限公司4 华为园区网络智能运维技术白皮书3华为基于AI的园区网络智能运维解决方案 数据分析 结果展示修复建议 智能分析器基于大数据分析和AI算法识别潜在故障和根因定位。 智能分析器友好地展示分析结果,包括业务和用户体验、潜在故障、故障根因等。对故障给出修复建议,包括具体修复步骤。 Only Onlyforpreview Onlyforpreview 文档版本01(2023-05-24)版权所有华为技术有限公司5 华为园区网络智能运维技术白皮书4关键技术 4关键技术 4.1秒级的海量数据汇集 传统网络管理系统采用SNMP来获取设备指标,但它有明显的缺陷,无法满足“以体验为中心”运维理念的需求。具体来说,首先SNMP使用“网管查询-设备响应”的拉模式(PullMode)采集数据。数据采集器与设备之间是一问一答的交互,一次查询对 应一次响应。设备压力大,大量数据查询时效率低。其次SNMP使用刚性数据结构,完成一次有效采集需要多次数据请求。基于这样的设计机制,SNMP的数据查询的典型频率是5分钟,如果查询频率过快会严重影响设备的正常业务。 StreamingTelemetry是从设备上远程高速采集数据的网络监控技术。设备通过推模式 (PushMode)主动向采集器上送信息,提供更实时、更高速、更精确的网络监控功能。 具体来说,StreamingTelemetry按照YANG模型组织数据,利用GPB(Google ProtocolBuffer)格式编码,并通过GRPC(GoogleRemoteProcedureCallProtocol)协 议传输数据,使得数据获取更高效,智能对接更便捷。 其中: YANG模型是一种标准数据建模语言,可以为各种传输协议操作的配置数据模型、状态数据模型、远程调用模型和通知机制等。 GPB(GoogleProtocalBuffer)编码是Google提出的与语言无关、平台无关、扩展 性好的序列化结构数据格式。 GRPC协议是Google开发的基于HTTP/2传输层协议承载的开源远程过程调用系 统。 总结,StreamingTelemetry的几个优点: 采用推模式主动推送数据,降低设备压力。 周期性推送数据,避免网络延时造成数据不准确。 可以监控大量网络节点,弥补传统网络监控方式的不足。 StreamingTelemetry效率比SNMP效率高20倍以上,可以实现10秒级的数据采集频 率。 文档版本01(2023-05-24)版权所有华为技术有限公