6G原生AI架构和技术白皮书 (2022) 中国移动研究院(CMRI) Contents 1前言1 2驱动力2 2.15G智能网络的挑战…… 2.26G无处不在的智能的新场景。 3定义和范围4 3.16G原生AI的定义4 3.26G原生AI的范围。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。4新想法……………………………………………………………………………… 4.1AI服务✁质量(QoAIS).5 4.2AI生命周期编排管理.9 4.3AI计算与通信✁深度集成.10 5新建筑……………………………………………………………………………… 5.1数据平面.145.2智能平面.165.3扩展控制和用户平面.18 6新技术20 6.1AI模型选择与微调20 6.2基于终端和网络协作的AI模型训练22 6.3基于终端和网络协作的AI模型推理24 6.4基于数字孪生的AI性能预验证26 7总结与展望27 缩写30 30 参考31 1前言 人工智能(AI)在过去十年中发展迅速,已在建模大数据样本的非线性规律以及与环境互动时的在线准确决策方面超越了人类智能,并在计算机视觉、自然语言处理和机器人控制等领域取得了巨大成功。AI快速发展的原因在于:一方面,深度学习和强化学习等人工智能算法取得了突破;另一方面,以GPU为代表的人工智能计算能力的成本快速下降并得到广泛应用。 自5G以来,人工智能逐渐在移动通信网络中得到广泛应用,包括网络管理层面的网络配置优化、网络元素层面的资源调度优化,甚至空中接口的物理层。此外,终端侧的应用也越来越多。展望未来,6G网络需要促进成千上万行业的数字化和智能化,并提供比云计算智能更具低延迟和更好性能的智能服务。对于运营商而言,网络运营成本需要大幅降低 ,网络运维需要从局部智能场景进化到高层次的网络自主。 目前,AI应用主要基于集中式的云资源。云服务器汇集大量数据,利用集中的计算能力对这些数据进行预处理,并训练和验证AI模型。然而,在网络中传输大量原始数据不仅会对网络传输带宽和性能指标(如延迟)造成巨大压力,还会对数据隐私保护带来巨大挑战。此外,由于缺乏计算能力和数据,终端侧的智能应用仍有很大的改进空间。 在面对上述挑战时,有必要将本地AI能力引入网络,摒弃拼凑式的AI应用模式,在网络架构层面实现通信连接、计算、数据和AI模型的深度融合,充分利用网络中的分布式计算能力和数据,以优化多节点间及终端与网络间的协调机制,并实现分布式与集中式处理的融合。这样不仅能够保护数据隐私,还能提高数据处理效率、决策和推理的及时性以及网络节点的利用效率。本白皮书首先介绍了本地智能的动力及其应用场景。当前智能网络应用的需求、高阶网络自主性、泛在智能、极致服务体验以及网络安全与可信度的要求,推动了6G网络对本地AI支持的需求。接着,本文详细阐述了本地AI的定义和范围,并提出了AI计算能力、数据、算法和网络连接的深度融合。此外,还介绍了6G本地AI的新概念,包括服务质量(QoAIS)、全生命周期AI工作流的编排、计算与通信的整合,以及本地AI与网络的融合。 数字孪生。提出并详细描述了一种由原生AI驱动的新架构,包括数据平面、智能平面和扩展的控制平面及用户平面,并介绍了新的技术,如数字孪生的AI模型编排、分布式模型训练、分布式模型推理、预验证以及数字孪生的优化。最后,展望了未来的研究方向。 2驱动力 5G网络中人工智能技术的应用促进了移动通信网络和垂直行业的智能化发展,但修补和插件的方式限制了人工智能应用的效果。同时,人工智能在各领域的应用和探索也对未来网络的新基础能力提出了要求。为了实现无处不在的智能愿景,6G网络需要构建原生的人工智能能力。 2.15G智能网络面临的挑战 在5G时代,智能网络实践要求将人工智能技术与5G通信网络的硬件、软件、系统和流程进行整合,并利用人工智能来帮助通信网络实现智能规划、建设、维护和优化,以提高质量和效率并降低成本。人工智能的应用促进了网络本身的科技和系统性转型,使业务创新更加灵活,并推动了智能网络的构建,包括云网络设备智能化、网络运营智能化和服务智能化。在5G网络中,人工智能主要用于通信连接和服务流程的优化。尽管服务云已经引入,但由于5G架构、协议功能和流程已经确定,只能对现有架构解决方案进行逐步迭代 。 基于补丁和插件AI的5G智能网络实践面临的挑战如下: 缺乏统一框架导致AI性能的有效验证和保证方法缺失。AI应用效果的验证通常是在事后进行,因此整个端到端的过程漫长而复杂,中间过程往往需要大量的人工干预。较大的网络影响使得在现有网络中推广AI难以迅速实现。插件模式难以实现预验证 、在线评估和优化的完全自动闭环。AI模型训练通常需要准备大量的训练数据。在插件模式下,难以在集中方式下收集和标注现有网络中的数据,并且数据传输和存储也较为困难。 -over-高的上层开销导致AI模型的迭代周期较长、训练开销高、收敛速度慢以及模型泛化能力差。 在插件模式下,计算能力、数据、模型和网络连接归属于不同的技术系统,它们之间没有标准化的接口和交互规则。跨系统的协作在管理平面进行,导致额外的秒级甚至分钟级延迟,并且服务质量无法得到保证。 2.26G无处不在智能的新场景 原生AI是指通过架构层面的本源设计模式来支持AI,而不是通过修补或插件模式。原生设计模式的驱动力如下: 该网络提供无处不在的AI服务:为了实现无处不在的智能愿景,6G网络需要推动成千上万行业的数字化和智能化,并实现智能能力的随时随地按需供应。与云服务提供商相比,6G网络需要提供具有更高实时性能和更好表现的智能能力服务,并同时提供跨行业的联邦智能,以实现跨域智能集成和共享。另一方面,由于终端数据量庞大,终端计算能力也在不断增强。考虑到数据隐私要求,需要利用原生智能协作网络以及终端的计算能力、通信连接和算法模型等资源,如计算卸载、模型编排等,为2C客户提供极致的业务体验和高价值的新服务。 AI为网络提供服务:6G网络需要达到高度的自主、安全和可信水平。目前,网络的自主性较低(自动驾驶网络的水平约为2.2),有必要在网络中引入原生AI能力以支持感知和实现运营商和用户意图,并实现网络的自我设计、自我实现、自我优化和自我发展。最终实现高度的网络自主性。此外,未来网络将承载更多样化的服务,服务于更多的应用场景,并携带更多类型的數據。因此,网络将面临大量新的复杂攻击方法。基于原生AI的安全能力嵌入到6G网络的各个方面,以实现自主威胁检测、自主防御或协助防御。 可以从上述驱动力分析中看出,除了满足基本的通信需求外,6G网络还需要考虑计算、数据、模型/算法等的整合,即6G需要通过原生AI在架构层面进行设计。 达到多样化的新业务场景和网络自主优化的要求,网络AI包括网络优化和用户体验中应用AI(如使用AI重写空中接口),以及第三方所需的各类AI服务。 3定义和范围 在6G设计阶段将考虑深度集成AI,即6G原生AI。与5G将AI功能视为附加特性不同,6G原生AI将在端到端层面实现计算能力、数据和模型的协调控制。关键要素,如连接、计算、数据和AI算法/模型,将固有地集成在一起,并且能够按需调度这些关键要素以应用于无线 、传输、核心网络等领域,从而提供高级网络自治和多样化业务需求所需的内在智能能力 。这就是6G的原生AI能力,它将使网络智能化更高效且表现更好。同时,网络智能化也将相应扩展,不仅加速了网络性能的持续优化,还提供了智能服务的能力,从而推动各行业的数字化和智能化转型。在网络智能化方面,6G时代将继续演进,促进真正智能的原生网络的形成。 3.16G原生AI的定义 6G网络原生AI在6G网络架构内运行,提供了数据采集、数据预处理、模型训练、模型推理、模型评估等整个生命周期的人工智能工作流程。AI服务的关键要素,如计算能力、数据、算法、连接和网络功能、协议、程序,深度集成于6G网络的初始设计中。6G网络原生AI旨在为高级网络自主性、工业用户的泛在智能以及订户的终极服务体验提供实时且高效智能服务和能力,并实现本源网络安全。 3.26G原生AI的范围 现有的移动通信网络主要进行面向连接的数据传输,这需要基于QoS(服务质量)的传输链路保障(如数据速率、延迟等)。然而,原生智能需要实现端到端的计算能力、模型和数据的控制与编排。因此,在网络设计和实施及运营方面存在巨大的差距。因此,在设计6G网络之初就必须考虑上述独特的需求。一方面,应引入新的概念,如基于AI服务的质量保证、端到端的集成与编排以及计算与通信的整合;另一方面,需要设计新的架构。 作为AI数据平面,还应该考虑AI智能平面、扩展控制平面和用户平面。 AI服务评估与保证✁质量应首先针对原生AI构建,然后基于AI服务✁质量实施端到端✁AI生命周期编排,包括计算能力、AI模型、数据和连接。 原生AI需要深度整合计算与通信。鉴于原生AI✁能力被分散到大量网络节点中,这些节点通常受限于数据收集、计算能力、带宽和延迟等因素,因此协调计算和通信资源✁设计变得至关重要。此外,还需要重新思考网络架构、协议和功能,使其能够适应空中接口传输并优化原生AI✁性能。 4新想法 在设计6G网络初期整合AI与传统✁面向连接网络时,情况相当复杂,这需要跨领域✁专业知识。跳出传统设计范式✁思维框框并融入新✁AI元素和概念至关重要。我们相信,评估和保证AI服务✁质量、协调和管理AI生命周期,以及深度整合AI计算与通信将成为原生AI系统✁基本概念。 面对各种行业和场景,对6G原生AI网络✁需求呈现出多样化。首先,我们需要回答✁问题✁如何将用户需求转化为网络AI服务✁能力?我们提出了AI服务质量✁概念,✃QoAIS (AI服务质量),认为网络应提供对QoAIS✁评估和保障。接下来,如何评估并持续满足QoAIS以及实施QoAIS保障需要管理平面、控制平面和用户平面✁共同参与。从管理平面 ✁角度来看,我们提出了一种AI生命周期工作流✁编排与管理,✃半静态分配网络资源,如计算能力、数据、算法和连接,以满足QoAIS要求;从控制和用户平面✁角度来看,实时分配网络资源以持续满足QoAIS至关重要,其中AI计算与通信✁深度融合✁关键。 4.1AI服务质量(QoAIS) QoAIS✁一套用于评估和保证人工智能服务质量✁指标集和相应✁保障机制。[1]6G网络将内嵌人工智能能力,能够支持各种智能应用,✃AIaaS。鉴于不同智能场景对人工智能服务✁质量要求预计将高度多样化,因此需要一套指标来表达用户层面✁需求以及网络编排与控制(包括人工智能模型/算法、计算能力、数据、连接等)。定量或分层方式。 原生6GAI服务可以归类为以下类型,✃AI数据、AI训练、AI推理、AI验证等。每种类型 ✁AI服务需要不同✁QoAIS(服务质量指标)。传统通信网络中✁通信服务质量主要考虑与连接性能相关✁因素,如延迟和数据速率(包括MBR、GBR等)。此外,6G网络将引入多种资源维度以支持AI服务✁编排和控制,如分布式异构计算资源、存储资源、数据资源和AI模型/算法。因此,6G原生AI服务✁质量应从网络资源✁多个维度进行评估,如连接性、计算能力、算法和数据。同时,随着“碳中和”和“碳达峰”政策✁实施,全球智能应用行业将更加关注数据安全和隐私以及网络自动化。未来,性能相关✁KPI将不再✁唯一 ✁重点指标,安全、隐私、自主性和资源开销✁要求将逐渐变得更加重要,并成为评估AI服务质量✁关键维度。因此,在最初✁设计阶段,QoAIS指标需要考虑性能、开销、安全 、隐私和自主性等方面。 表4.1-1:AI培训服务QoAIS指标 AI✁类型服务 评价尺寸 QoAIS指标 AI训练 性能 性能界限,训练时间,概括,可重用性、鲁棒性、可解释性、一致性在损失函数和优化目标之间,公平性 开销* 存储开销、计算开销、能耗 开销, 传输 安全* 存储安全、计算安全、传输安全 隐私* 数据隐私级别,算法隐私级别 自