6G无线网络自治的数字孪生网络方法白皮书 (2022) 中国移动研究院(CMRI) Contents 前言1 1.运营商网络运维优化的现状与愿景3 2.自我智能网络路标和启示4 2.1路标4 2.2挑战6 2.3灵感来源7 3.基于网络数字孪生9的6G网络自治 3.1基本概念10 3.1.1数字孪生网络10 3.1.2三个内容12 3.1.3五个州13 3.1.4双闭环15 3.2技术特点16 3.3网络体系结构19 3.3.1端到端体系结构19 3.3.2数据平面21 3.3.3智能平面23 3.4关键技术24 3.4.1数据采集和分析技术25 3.4.2数据增强技术26 3.4.3数据和知识协作驱动的预验证28 3.4.4知识图谱和图神经网络28 3.4.5仿真适用性30 3.4.6预验证结果的校正技术31 3.5网络的全生命周期自主性32 3.5.1连续计划33 3.5.2虚拟和真实连接34 3.5.3预防和治疗的结合35 3.6案例描述35 3.6.1大型天线的波束权重优化35 3.6.2智能深度RAN切片37 3.6.3多维资源的联合调度39 4.摘要和Outlook41 缩写44 写作单位和工作人员44 参考文献45 前言 目前,各行各业都在利用先进的云平台技术和网络连接服务,对服务进行数字化、自动化转型,以提高服务的敏捷性和灵活性。在移动通信领域,虽然运营商多年来在网络管理和服务提供的自动化方面进行了探索、研究和部署应用,但并不能解决网络能耗高、多标准互操作复杂、运营成本高、效率低的问题。同时,随着网络向可编程、软件驱动、面向服务的架构方向演进,网络运维(OAM)的复杂性和规模达到了前所未有的高度。新业务和新技术的推出也对网络运营的敏捷性提出了更严格的要求,运营商迫切需要更加全面、智能、可扩展且经济实惠的网络自动化OAM系统。 网络OAM的自动化具有不同的粒度,可以是任务、功能或流程的自动化,也可以是网络和服务生命周期管理的自动化。目前5G网络OAM自动化水平较低,大多依赖于程序固化的专家规则和自动调度流 。在某些场景下,5G网络OAM仍然需要依赖人工操作。基于智能手段的网络OAM自动化仍然是“碎片化”和“插件化”。“碎片化”是指针对某些功能实现更高程度的自动化和更少的人工干预的用例驱动方法,例如SON中的基站自启动、邻域关系自优化、PCI自优化、MRO等。“插件”是指将相关数据收集和汇总到网络管理或相关平台进行训练,并将模型发送到相应的网元,以生成OAM所需的智能。这种“烟囱式”自动化系统和研发模式在现有网络结构下,可以在一定程度上提升网络管理的自动化水平,但由于现有网络结构的局限性,难以保证数据的有效性和实时性,不同厂商之间数据的互操作和共享难度大,网络自动化效率低,效果难以达到预期。 未来,6G网络将通过网络数字孪生构建全新的自动化网络OAM系统,实现整个网络生命周期的高水平“自治”。数字孪生网络是由可以实时映射的物理网络实体及其孪生数字网络组成的网络系统。网络的数字孪生实体是真实网络实体在数字空间中的动态建模或镜像复制。数字域通过丰富的历史和实时数据以及先进的算法模型生成感知和认知智能。它可以不断优化和模拟最优。 1 状态,提前发出相应的OAM操作,自动纠正物理网络,提前解决网元或网络故障,达到“治未病”的效果。然后它可以通过收集校正数据来形成一个闭环,以评估运行和维护结果。通过这种数字域和物理域之间的闭环交互、认知智能以及自动OAM操作,网络可以快速识别和适应复杂和动态的环境,实现规划、构建、维护、优化和固化网络整个生命周期的“自主性”。 到2021年9月,中国移动发布了《数字双网(DTN)白皮书》,阐述了“数字双网(DTN)”的概念和定义,并给出了DTN的参考架构、关键使能技术、能力分类体系和典型应用场景[1]。在此基础上,本文对6G无线网络自治的数字孪生网络进行了进一步的研究和探索,介绍了6G无线网络自治的相关基本概念,明确了技术特征,设计了网络架构,规划了关键技术体系,并通过具体案例说明了基于数字孪生网络的6G无线网络的全生命周期自主性。最后提出了需要进一步研究和解决的关键技术问题。 2 1.运营商网络运维优化现状及展望 5G网络极大地提高了通信质量,但层出不穷的新网络服务和不断扩大的网络规模给5G网络的 OAM和优化带来了诸多挑战,网络OAM的复杂性不断增加,创新技术的部署也变得更加困难。 传统2C场景下存在终端功耗高、现网节能效果有限、5G终端通断比例低、5G分流驻留比例低、系统相邻区域优化维护复杂等问题。在2B场景下,规划到行业专网的基站设备产品库不完善,不能灵活满足覆盖和场景的变化。同时,2B服务专属维护体系不完善,网络维护人员技能无法满足跨层、跨域的维护能力需求。此外,专网建设成本较高,2B业务应用场景差异较大。具有大上行链路和大下行链路速率等级、低延迟控制等级和高可靠性要求的场景将导致更高的联网成本。终端问题也会影响服务稳定性。 随着云计算和虚拟化技术的发展,传统网络开始向软件化和可编程化转变,呈现出资源的云化、服务的按需设计、资源的编排等新特点。,这使得网络管理和OAM变得更加复杂。由于缺乏有效的仿真,预测和验证平台,很难从现有的计划维护转向预测性OAM。而网络优化操作必须直接应用于当前的网络基础设施,这导致了网络优化的高成本和风险。另一方面,由于可靠性要求高,网络运营商很难直接利用当前的网络环境进行网络创新技术的研究。网络新技术研发周期长,部署难度大。 面向未来,网络通信的方式,承载的业务类型,网络所服务的对象以及接入网络的设备类型将呈现更加多元化的发展趋势,这使得网络具有高度的动态性和复杂性,要求网络更具灵活性、可扩展性和对需求的响应能力,成为具有自我优化、自我进化和自我成长能力的自主网络。自优化网络提前预测未来网络状态的趋势,提前介入可能的性能恶化,不断优化,验证最优。 数字域中物理网络的状态,并提前发出相应的OAM操作,自动修正物理网络。基于人工智能的自进化网络对网络架构和功能的进化路径进行分析和决策,包括当前网络元素的优化和增强以及新元素的设计、实现、验证和实现。自增长网络识别和预测不同的服务需求,自动安排和部署各种域网络功能,生成端到端服务流,以满足服务需求,自动扩展容量不足的站点的容量,并对网络未覆盖的区域执行自动规划,硬件自开启,软件自加载操作。 2.自我智能网络路标与启示 随着5G时代的发展,未来将出现许多新的行业和场景,部署新的应用,并引入和扩展新的网络技术 。如何高效地实现日益复杂的大规模网络的OAM,并不断快速迭代地引入新技术,是业界普遍面临的问题。面对全球客户最多,服务最丰富,网络规模最大的通信网络,中国移动网络OAM正加速数字化智能化转型升级,努力构建云网一体化、高度自动化、智能化的网络系统,夯实各行各业数字化、智能化转型的基础[2]。中国移动于2021年发布了《中国移动自动驾驶网络白皮书》,该白皮书定义了流程的场景分类标准,以逐步和迭代的方式增强了网络OAM的自治水平。本文为实现5G乃至6G网络自治提供了启示和思路。 2.1路标 “自主智能网络”要求“网络”的自动化和智能化,将人工智能等智能化和自动化技术与网络相结合,实现网络的可预测性和运行自主性,旨在构建通信网络全生命周期的自动化和智能化OAM能力。 自智能网络分层框架将网络自治能力划分为L0~L5六个层次。从L0到L5的自智能网络分层意味着不同的网络特性和能力。同时,基于TM论坛自智能网络框架的指导原则,结合 网络OAM和管理评估,从指导IT系统实施的角度描述了各级网络自治能力的特征。网络自治能力及其特征的对应关系和演化路径[2]如下图所示: 图2.1-1.自智能网络分类及演化路径 中国移动本着自主智能网络的理念,规划网络OAM的数字化、智能化改造,加强自动化、智能化能力 建设,并在网络OAM自主层面设定了2025年达到L4级的总体目标。L4意味着网络具有高度的智能化,可以完成对目标场景的自动感知、分析、决策和执行的智能化工作流程,可以形成完整的自动闭环过程,无需人工干预。其中,自动感知能力使数据采集、处理、关联、共享、存储和管理全过程自动化,实现数据管理的高效率和标准化。自动分析能力是实现网络的智能分析和建模,提高模型的泛化性和通用性。自动决策和执行能力是指具有一定的可信评估和自主决策能力,并允许各算法独立评估决策质量,在网络中自动执行,从而实现算法的安全性和可信性。网络能够提供丰富的平台级、分布式计算服务,支持界面上的信息管理与控制自动化和流程交互,具有一定的意向接口能力,根据用户意向需求自动生成规则或策略。 6G网络的目标是实现L5级的自智能网络。L5是指网络的整个流程是智能化的,网络具有全意图管理能力,不需要人为设置服务规则,可以根据服务场景的智能化定制策略,自动迭代进化,真正实现网络随业务而变化。L5级自智能网络旨在为消费者和垂直行业客户提供全自动、零等待、零接触、零故障的创新网络服务和ICT服务,构建具有自助服务、自我修复、自我优化、自我修复能力的通信网络。 2.2挑战 通过5G自智能网络的实践,我们发现与其他简单系统不同,移动通信系统具有“高系统化、高复杂度 、高动态性、高可靠性”的特点,给数据采集、算法开发和应用部署带来诸多挑战。 在数据方面,当前网络数据是封闭的,很难获得网元内的深度数据。在目前的网络系统中,无论是2/3 /4G网络还是新建的5G网络,网元自优化和网络运维管理所使用的数据的区分、网元与网管设备的功能耦合关系以及系统架构都没有实质性变化。网元内部数据的类型丰富度和统计精度远远优于网元上报南向网管的数据,而南向网管的数据又优于运营商北向网管设备能够获取的数据。然而,由于考虑到设备的私密性、设备处理资源和传输资源的消耗,网元内部的大量数据对运营商并不开放,仅用于网元内部和同一厂商网元之间接口的算法研发。因此,运营商无法获得对网络真实状态的完整、实时、精确的感知,网络的管理和控制只能由各种较长时期的表面统计数据来支持。同时,现有数据存在部分数据缺失、样本集不平衡 、数据标注缺失等数据质量差的问题。.由于数据存储资源有限,网络中存储的数据大多为半年历史数据 ,时效性较差。在算法方面,由于网络环境的高动态性,网络特征的原始数据的分布也表现出高动态性。在现实网络中,学术界用于算法创新的先决条件“独立和分布式数据”往往是不正确的。基于“非独立同分 布”和“非独立不同分布”数据的建模是业内普遍亟待解决的问题,。 这需要抽象为科学问题,并充分利用网络知识。另一方面,由于移动通信系统的“高可靠性保证”,其算法及其做出的网络自主决策必须“安全”和“可信”才能与当前的网络运营系统对接。目前,只有在算法上线或执行决策后,才能通过网络性能统计指标来判断网络性能,存在网络性能恶化的风险。为了保证算法的“可信性”,需要突破算法的可解释性。虽然学术界已经有了一些研究和突破,但目前还没有一个系统的、自动的解决方案来解决以深度神经网络为代表的非线性模型的“黑箱”。选择具有更好结构可解释性的简单模型可能会导致性能损失。最后,针对不同的网络自治场景,算法存在大量的重复开发和优化。集中部署的AI开放平台可以在一定程度上降低算法的研发成本,但仍不能解决研发的“烟囱”模式。该算法不能在节点、区域和自治环境之间有效地重用和迁移。 在应用部署方面,移动通信网络的网络自主场景众多且复杂,大多数应用需要串联多个生产环节,环节之间的相关性分析主要依赖于人工操作人员。仅在网络OAM领域,就梳理出11类场景、37个核心能力和1300多个子流程,分析工作耗时耗力。同时,很多AI应用的研发模式仍然是高成本、低效率的“烟囱”模式。该算法部署在网管设备或网元设备连接的服务器上,显示“插件”模式。网络自主场景中智能的生成、部署、评估和迭代优化严重依赖人工作业,影响了网络自主水平的提高。 2.3灵感 向2025年实现L4级自智能网络、未来实现全L