基于用户业务感知的 有线宽带智能运维解决方案 中国移动研究院2022年12月 摘要 本报告分析了有线宽带网络运维目前面临的巨大压力和技术问题,基于“极目云智”系统实践,提出基于用户业务感知数据的有线宽带智能运维解决方案,对其技术架构和典型场景应用进行阐述,旨在为有线宽带智能运维体系的整体建设发展提供技术参考和应用指引。 本报告的版权归中国移动所有,未经授权,任何单位或个人不得复制或拷贝本建议之部分或全部内容。 目录 摘要2 一、有线宽带运维面临的问题4 二、有线宽带运维的典型需求场景6 三、自智网络技术发展现状10 四、基于用户业务感知的有线宽带智能运维系统12 五、总结与展望20 缩略语列表22 一、有线宽带运维面临的问题 中国移动用户规模巨大但仍在持续增长,截至到2022年9 月份,中国移动有线宽带用户累计达到2.65亿户1。伴随用户快速增长,有线宽带的光纤公里数、网元数量、网络拓扑及连接复杂度大幅增加,同时随着互联网新业务的不断出现,网络运维面 临诸多重大挑战。 第一,有线宽带网元层级多、无源光线路长、最后1公里不可控因素多;有线宽带跨多个网络域(涉及家庭网络、接入网、城域网、骨干网、省网、传输网、业务平台/内容分发网等。如图 1所示)、管理线条多,流程有时依靠人工流转;网元厂家多,未 开放标准化的操作接口,很多管理配置还依赖于手工操作。以上导致出现网络质差时,难以自动提前或及时发现问题;发生故障时,缺乏端到端整体分析,需要较多人工处理,排查定位和修复故障的效率低耗费时间长;被动等待投诉后处理,仍存在大量潜在质差用户未得到处理。另外,有线宽带还较易受到天气环境、施工、人为等突发因素影响,以上导致运维工作量极大。 1中国移动有限公司2022年第三季度财务报告 第二,新业务层出不穷,对网络质量要求也越来越高。除上网浏览、网络电视、网上购物、网络社交、长短视频播放、在线 游戏外,视频直播、AR/VR、元宇宙等新业务不断涌现。受疫情影响,用户的工作和学习越来越多的依靠在家里或公司通过网络会议和网上课堂的方式进行。这些业务对有线宽带网络质量要求 极高(有的带宽甚至会达到Gbps、时延ms级),对网络质差容忍度低,一旦发生网络质量劣化或故障、修复不及时,极易造成用户投诉和满意度下降。 但是,由于单段线路网络质量QoS指标难以完全反映业务端到端的质量情况,QoS与业务质量/用户体验之间并非线性对应关系;不同业务在QoS对用户体验影响敏感性和程度上存在 差异;另外业务技术也在基于网络质量情况进行适配演进。因此,面对用户提出的用户体验上的投诉问题,缺乏对用户感知数据的 采集,仅基于网络侧QoS指标往往很难追查,用户问题往往被大量的QoS重复告警所湮没。 第三,对于家庭网络和有线接入的企业宽带网络,存在大量 非运营商管控的用户终端设备,处于监管盲区。用户满意度受这些用户自有终端的使用情况,以及用户主观行为和习惯的影响。因此,当出现用户粒度质差和投诉时,一大部分问题难以通过网络侧来发现和定位问题,经常需要人工上门处理。 图1有线宽带网络架构 综上,有线宽带网络亟需采集与用户感知相关的质量数据,打开用户内网监管盲区,以更准确更全面地进行用户网络质量问题的发现和诊断;同时,亟需引入智能运维技术,在关键运维环节进行必要的人工替代,以提高运维效率和运维质量。通过对用户业务质量感知的全面掌握和智能手段的充分利用,才能缓解目前有线宽带运维面临的巨大压力,切实提高网络质量,降低被动投诉,提升有线宽带用户满意度。 二、有线宽带运维的典型需求场景 1、网络故障(质差)的异常发现 (1)上网业务量升降异常发现 当有线宽带某个网元或线路发生故障时,一般都伴随相关业务的用户数或业务访问量发生骤降或波动,如用户上网用户数、 上网流量、访问次数等指标(图2),此类异常往往预示着网络发生问题并影响了用户业务正常访问,需被及时发现告警并被核查 修复。如果发生故障的业务量指标的时序本身就有一定的周期波动性,则较难通过简单静态阈值方式进行检测。 图2网络发生问题时导致业务量指标异常 (2)互联网电视质差告警故障发现 基于有线宽带网络的互联网电视业务,如IPTV,其体验质差告警,正常情况下一般由个别用户原因造成,时序一般呈随机分 布;而若由某一网元或线路群障造成,则时序呈现出聚集突增情 况(图3)。使用静态阈值方法,对不同告警时序模式需设置较多静态阈值,耗费人力且难以管理;业务发生变动时还需重新调整;另外单一静态阈值还容易造成漏警或误警。 图3网络电视故障时产生质差告警激增 2、网络故障(质差)的根因定位 (1)互联网电视故障根因定位 互联网电视业务质量出现问题,原因涉及通信网络、内容服务器、以及CDN等,或其相互交叉影响造成。由于以上各原因的子维度和节点众多,发生电视卡顿故障时进行根因定位时,面 临巨大和复杂的维度搜索空间(图4),仅靠人工逐级定位分析,定位慢耗时长。 拓扑维度 内容维度 分发维度 拓扑*内容维度 拓扑*分发维度 内容*分发维度 拓扑*内容*分发维度 图4互联网电视发生故障时根因定位面临的维度搜索空间 (2)家庭内网质差定位 家庭内网是有线宽带网络的用户侧末梢,运营商不完全管控,是网络运维的难点和痛点。家庭内网质量易受到家庭网关、带宽、 用户终端、组网部署方式、第三方路由器、Wi-Fi覆盖和同频干扰、网口/网线连接等多因素的影响,也和用户使用位置和习惯有关。用户常见感知的质差问题现象是“上网慢”“网速不稳定”等。出 现以上投诉,由于排障规则复杂和用户差异大,往往依赖装维人员上门,根据专家经验现场分步逐项尝试排查,耗时长效率低成本高。同时装维人员的经验积累慢,相互之间较难得到复用,导致排障技术门槛高。 3、用户上网满意度预测 随着带宽步入千兆,有线宽带用户的上网满意度成为运营商 的重要竞争点。若能有效预测用户的不满程度,可以帮助运营商提前发现潜在质差用户,及时采取措施,以避免用户投诉和用户流失。但用户满意度影响因素多,不仅包括各类质量问题,还涉及用户资费、业务差异、感受差异等因素,通过个别指标和阈值进行推断用户满意度,难度较大,还有较多技术问题有待突破。 三、自智网络技术发展现状 伴随数字经济高速增长,人们生活日益依赖网络,基于网络的各类业务不断涌现,沉浸式用户体验对网络质量的要求也不断提高。运营商的网络覆盖范围、网元数量成倍增加,网络管理复杂度呈指数性增加,以“人工为主”的网络运维体系应对越来越力不从心,亟需在一些关键运维场景引入“智能”手段来实现运营商网络运维的“提质、增效、降本”。 2019年电信管理论坛TMF成立“自智网络项目”,旨在构建业界领先、端到端网络自动化、智能化的方法,帮助运营商简化业务部署,推动网络Self-X能力(自服务、自发放、自保障)全 面提升,为用户提供Zero-X(零等待、零接触、零故障)体验2。这为运营商网络运维的智能化转型明晰了目标和实现路径,成为通信行业的发展共识。 中国移动参考TMF自智网络理念,基于自身实际,规划网络运维的数智化转型,加大自动化、智能化能力建设,面向流程定义场景化分级标准,分步迭代提升网络运维自治水平,设定了 2025年网络运维自治水平达到L4的整体目标(运维分级见表1)。同时提出“2+5+N”的网管系统总体规划,体系化指导网管系统能力建设,以拉通运维流程,补齐自动化业务配置激活,夯实数据 底座,强化端到端业务保障,实现能力复用共享,针对性完善能力短板3。 表1中国移动网络运维分级 网络运维级别 代际特征 L0 线下人工实现 L1 人工实现,线上记录 L2 自动实现,程序固化专家规则 L3 自动实现,规则与功能解耦,可按需灵活配置 L4 自动实现,规则结合AI,可持续学习、快速迭代 L5 自动实现,规则顺应变化自动迭代 2自智网络白皮书(3.0),TMForum,2021 3中国移动自动驾驶网络白皮书,中国移动,2021 四、基于用户业务感知的有线宽带智能运维系统 以上章节对有线宽带网络运维当前面临问题,自智网络发展状况等进行介绍。本章基于中国移动“极目云智”系统的实践,提出构建基于用户业务感知的有线宽带智能运维系统的技术方案,希望能为有线宽带网络发展和自智网络水平提升,提供参考。 1、有线宽带智能运维系统技术架构及关键技术 基于用户业务感知的有线宽带智能运维系统,涉及海量的用 户业务感知数据的处理,且面向有线宽带智能运维主题,因此具有典型大数据采集、处理和存储流程,以及AI模型学习过程的技术特征。 基于用户业务感知的有线宽带智能运维系统,从架构上可分 为四层(图5):业务感知采集层、运维数据服务层、智能运维应用层、智能运维策略层,下面逐层介绍其功能和关键技术。 智能运维应用层 算法支撑 效果评估 样本标记 模型训练 特征工程 模型算法库 家庭内网质差分析 用户满意度预测 政企宽带质差预测 电视业务故障根因分析 用户体验质量告警异常发现 业务量异常发现 智能运维策略层 运维案例 回单确认 流程编排 执行策略 工单告警 运维数据服务层 图数据库 (Neo4j等) 业务感知数据仓库 (Hive) 原始数据(ODS) 用户粒度质量指标(DWD) 网管数据 多维网元粒度汇总质量指标(DWS) 网元资管数据 面向运维场景的数据服务(ADS) 大数据计算引擎 (Spark/ Flink等) 业务感知采集层 业务平台 …... BRAS OLT 终端 图5基于用户业务感知的有线宽带智能运维系统架构 (1)业务感知采集层 业务感知采集层,由相关网元和终端上的业务感知模块组成。这些模块采集网络质量、业务质量和用户体验指标;同时也接受平台管控和配置,可按需按策略进行业务、网络性能监测和拨测。业务感知采集层可周期性或根据条件触发,上报采集加工过的各类指标数据。 (2)运维数据服务层 运维数据服务层,对业务感知采集层上报的大数据,进行计算处理,以数据仓库方式对运维数据进行分层处理、加工和存储,并向智能运维应用层提供面向具体应用场景的主题数据服务。 运维数据仓库主要使用Hive及SQL技术。大数据计算引擎,负责数据仓库的分层加工处理,根据数据处理要求可进行离线计算和实时计算,主要技术有Spark/SparkStreaming和Flink等。 为支持知识图谱技术,还提供以Neo4j为主的图数据库,用 于面向运维特定领域知识图谱的知识表示、知识储存和知识查询。 (3)智能运维应用层 在智能运维应用层,运行有各种典型运维场景的智能应用模块,根据具体运维场景需求,从运维数据服务层提取对应主题数 据,通过AI算法模型,开展异常检测、根因定位、质差预测等典型运维任务,并将结果上报智能运维策略层。同时在此层,建设有智能算法库(Scikit-Learn、TenforFlow、PyTorch等)、数据 特征工程、模型训练环境、样本标记、算法效果评估等模块,以 支撑以上具体应用模块的全生命周期运行。 (4)智能运维策略层 智能运维策略层,接收智能运维应用层的运行结果,按运维流程,运行告警派单、策略执行;面向管理人员支持策略编辑、流程编排;同时对派单结果进行回单确认,运维案例积累,并反馈智能运维应用层,形成迭代优化闭环。 3、有线宽带智能运维系统的应用探索 (1)异常检测 异常检测是在时间序列中查找出与预期行为不符的模式。在有线宽带运维场景中,在网络环境稳定、设备运行正常的情况下,网络性能指标应保持稳定,而在发生异常(如突增、突降、抖动)时则往往伴随着网络故障或潜在质差4。通过异常检测算法可在网络质量、业务质量或用户感知指标时序中高效快速发现异常问题,减少繁多指标曲线的人工处理成本,以便运维人员或系统做出及时反应,减少甚至不对用户造成影响。 异常检测算法的思路是找出与“正常值”不一样的“异常点”或 4基于机器学习的智能运维,裴丹等,中国计算机学会通讯,2017 “异常区段”,主要方法包括:根据统计学原理的算法,如3