1 网络大模型十大问题白皮书 6GANASIG2 2023.12.21 摘要 作为6G的研究热点,网络与AI被ITU-R正式提出作为6G的6大场景之一。其一直以来受到学术和工业界的广泛关注,6GANA也提出了网络AI的理念并展开了深入的研究。而随着大模型的兴起以及其在各行业表现出来的强大潜力,可以预见到大模型也将在6G网络中扮演重要的角色,相关的研究也将逐渐进入高发期。本白皮书将首先对网络大模型(NetGPT)给出明确的定义,随后从基础理论、场景需求、网络架构、部署管控、数据治理等方面系统阐述NetGPT的10大重点研究问题,分析潜在的研究路线,希望能够为后续的NetGPT的相关工作指引方向。 目录 摘要2 1.背景4 2.网络大模型的定义4 3.十大基础问题5 3.1NetGPT场景和需求问题6 3.2NetGPT的基础理论问题7 3.3NetGPT的极致性能要求问题9 3.4NetGPT间的协同问题10 3.5NetGPT的原生分布式部署问题12 3.6NetGPT的网络架构设计问题13 3.7NetGPT的安全隐私问题14 3.8NetGPT的数据服务问题16 3.9NetGPT的评判体系与方法问题16 3.10NetGPT的全生命周期管控和编排问题18 4.总结与展望20 1.背景 ITU-RWP5D第44次会议正式通过了《IMT面向2030及未来发展的框架和总体目标建议书》,作为6G研究的一个重要的里程碑,代表了全球的6G愿景共识,其中AI与通信融合被作为6大关键场景之一,与6GANA提出的NetworkAI理念不谋而合。 随着大模型的颠覆性发展,AI在自然语言处理、计算机视觉、语音识别等领域的任务处理能力得到了极大的突破。特别是大语言模型,如ChatGpt,能够准确识别并理解用户的意图,为用户提供问题,生成文本等,并在结合多模态技术后不断向更多领域拓展。可以预计,大模型将会成为AI通信融合的关键组成部分。在提高网络中AI的通用性和多任务处理能力等方面发挥重要作用。 然而我们需要意识到,大模型与AI在应用上是有着很大不同的。在以往AI模型的使用上,是通过收集大量的数据然后从头训练模型,因此需要关注是如何针对具体任务设计模型结构、网络如何收集需要的数据,网络如何为AI模型的训练推理提供算力和算法支撑等。大模型在应用上,是以预训练基础模型为底座,通过各种策略,如prompt,fine-tune以及向量库等方式来适配各类具体任务。另外,大模型意图理解和涌现能力,也给大模型的应用带来了更多的可能性,例如可以实现基于意图的编排,调用各种工具实现具体任务等。同时,大模型的巨大参数量和算力需求,也为其在网络中的应用带来了新的挑战。为此,我们需要重新梳理大模型和网络结合这个领域中的关键问题,为后续的研究指明方向。 2.网络大模型的定义 大模型将在运维、执行、验证等方面为移动网络服务。通过整合通信知识,大模型可以帮助检测故障和生成解决方案。随着网络服务的多样性和复杂性,大模型可以用来编排和调度任务流程,还可以进行性能优化、环境预测、资源分配等。通过出色的生成能力,大型模型有望在验证阶段发挥重要作用,如室外复杂环境的通道生成、高铁场景模拟等。因此,我们将无线通信网络中使用的大模型定义为网络大模型(NetGPT)。 由于无线通信网络包含RAN/CN/OAM这些不同的技术域,他们在功能特性、数据结构、以及性能需求上都有着明显的区别。例如,应用在运维领域的模型可能与NLP领域LLM类似,可以直接对LLM进行微调得到;而应用于空口的模型与自然语言完全是另一套体系。因此,NetGPT并不是一个单一模型通配所有网络场景,而是一系列模型的组合。需要注意的是,这种 组合并不是简单的将孤立的模型摆放在一起。我们为NetGPT建立了三层模型,即L0,L1和L2。其中,L0代表全网通用大模型;L1代表网络不同领域大模型,如RAN/CN/OAM域大模型;L2代表特定场景下的网络模型,如信道预测或者负载均衡等,如图1所示。 NetGPT在通用性、基础性和规模上,都是传统各网元各自训练出的特定场景模型所不能相比的。通用性上,NetGPT-L0要能在全网各领域通用,包含是电信领域的基础知识,NetGPT-L1的通用性就差一些,局限在对应的领域内;基础性指的是能够通过few-shot甚至zero-shot就很好的适配到下游任务上,这一点NetGPT-L0/1都要具备,特别是L1,要能够作为NetGPT-L2的基础模型,通过各种策略来快速适配到新的场景中去,不再需要从头开始训练L2。而在模型规模上,NetGPT-L0/1的参数量要满足大模型的基准门限,目前业界普遍的看法是,产生智能涌现的最少参数量在70亿。NetGPT-L2的参数量可以小很多,方便其部署在网络边缘和端侧。 图1NetGPT三层L0/1/2 3.十大基础问题 尽管大模型,尤其是LLM,已经在很多领域展现出了令人惊叹的能力,网络大模型仍然还有很多基础问题需要去研究和解决。这些问题可以分为两类,一类是大模型本身的设计类问题,另一类是网络设计如何支撑大模型应用类问题,如图3-1所示。也就是说,我们让NetGPT既要造的出,也要用得好。 图2网络大模型NetGPT十大问题 3.1NETGPT场景和需求问题 网络技术研究,以需求和场景始。研究NetGPT的需求和典型场景是网络大模型制定发展策略、规划和优化的基础,并对网络长期规划、技术升级和演进决策具有重要意义。只有具备高增益的典型场景、高价值的典型业务,才能为NetGPT后续的落地和部署提供必要保障,否则只能是停留在纸面的空中楼阁。因此,NetGPT的需求是否真实存在,需求程度如何,需要通过研究过程逐步去伪存真,为后续的网络设计和NetGPT发展提供必要依据。另外,在NetGPT需求和场景研究中,需要结合对未来技术趋势的分析,需求和场景研究可以一定程度适度超前当前科技水平。 单从IT视角进而CT视角看GPT技术,从IT视角看,GPT既是一种AI大模型,也是超级AI大应用;从CT视角看,GPT既可以是一种辅助工作的赋能手段,也可是一种创新设计新范式。而就6G网络发展而言,从“需求搜集”到“系统设计“,再到”规范标准“,“研发测试”,“规划,建设,运维,管理,优化,营销”等全生命周期的各个环节,GPT类技术都可以在其中发挥重要作用,而从一开始最具价值的毫无疑问是GPT赋能网络,即NetGPT。而无线网络边缘单设备/终端相对于云较为受限的计算能力,决定了NetGPT并不能像传统AI那样对网络中的功能和算法进行简单替换,而需要重新设计,包括适配无线网络的NetGPT算法,以及原生支持NetLM应用的无线网络架构。 (1)NetGPT在网络中提质、增效、降本和拓收的需求和场景。体现在提高网络AI普适性、网络性能提升、网络智能化管控优化等方面。面向沉浸式通信、超大规模连接、超高可靠低时延、泛在连接、智能内生、通感融合等未来网络应用场景,相对目前的网络管理与服务方式,使用NetGPT是否可以出现新的管控范式,进而AI服务可以更加广泛,AI准确度得到有效保障,网络获得较大的增益。例如,在多样性的场景中,为不同场景的需求提供定制化的解决方案,根据不同场景精准编排网络服务,从而实现网络的泛在智能,提高网络的适应性和用户满意度。在网络传统的管控优化方面,大模型能否提供更普适性的AI,在自动化网络管理和故障排除、网络优化和资源分配、辅助构建自适应网络、检测网络威胁和异常活动从、辅助分析网络数据等方面,进行综合性的分析与管理,提升网络全局的效率。 (2)6G网络架构支撑NetGPT发展的需求和场景。6G网络新的创新技术,天然具备支撑NetGPT独具优势发展的土壤,如移动算力网络、分布式网络架构等。但是6G网络架构、功能、接口设计,与NetGPT的发展速度时间窗口不一定完全匹配。6G网络设计在原生支持NetGPT方面,通过云计算、边缘计算移动算力网络的计算资源,为NetGPT提供训练算力、分布式部署、分布式推理等场景是否具有需求与可行性。另外,在NetGPT算法设计中,是否匹配6G网络泛在终端、异构资源特点;以及NetGPT的出现,是否会对目前6G架构,功能与协议栈造成冲击。这些将是6G网络和NetGPT需要共同面对的问题。 (3)NetGPT在6G网络应用中的边界。无线网络的层级越低,对服务质量(QoS)(包括实时性和准确性)的要求就越高。目前的大模型技术并不能满足移动通信网络对高确定性QoS保障的要求,未来NetGPT的发展是否会只能用于特定层级或特定功能。例如,NetGPT是否只适用于空中接口的高层,而不适用于物理层?这些边界问题还涉及NetGPT在每个具体应用中可能发挥的作用。例如,NetGPT能在多大程度上支持未来的OAM系统--完全或部分自治网络。在研究NetGPT时,有必要澄清上述基本情况和边界问题。 3.2NETGPT的基础理论问题 在未来无线网络全面智能化时代,通信、计算、数据、AI的融合是不可避免的趋势,而构建NetGPT是实现这一目标的关键。然而,要实现NetGPT的构建,需要解决许多基础理论问题。 (1)NetGPT与LLM的差异。作为最具代表性的基础模型,大型语言模型LLM也被很多研究者作为网络模型的底座,通过微调或者提示等方式来解决网络任务。然而,通信领域与自然语言处理领域的根本差异导致了NetGPT与大型语言模型在理论上的显著差异。这些差异主要体现在以下几个方面: 1.数据特性:NetGPT处理的数据集涉及通信信号,例如通道信息,这些以高维张量形式表现,与大型语言模型所处理的基于令牌(tokens)的数据形式有本质区别。 2.后端任务:无线网络处理的任务种类迥异,因此NetGPT的输出形式可能多样化,与大型语言模型使用令牌输入输出形式不同。 3.模型大小:NetGPT定义了多层次的结构,在不同层次上部署多种规模的模型。特别是在网络边缘部署的NetGPT模型,如基站中的NetGPT-L2,其参数规模可能仅为1至10亿,相较于集中式大型语言模型的50至2000亿参数规模有相当大的差异。 另外,随着模型规模的不断增长,我们看到LLM的性能提升也逐渐出现边际效益递减的情况,是否还有其他更好更高效的架构,或者说更适合移动网络的架构?例如transformer在一定程度上牺牲了捕捉局部特征的能力,特别是失去的位置信息对于时序数据非常重要,PositionEmbedding也只是一个权宜之计,在作用域对于时序要求更高的移动通信系统时是否能产生好的效果?transformer的Embedding对于结构化数据的处理效果并不太好,尚未有效解决如何将非连续数据映射到向量空间的问题,这对于目前以结构化数据为主的电信运营商来讲也是一个亟需解决的基础问题。因此,对于NetGPT是否能与大型语言模型使用同样的模型架构,或者NetGPT将激发新的理论和架构研究,仍然有待进一步的探索。 (2)NetGPT的泛化能力如何满足网络任务的多样性。大模型的一大优势就是可以利用非常少的下游数据来进行特定任务的适配,或者是few-shot甚至zero-shot的学习,都能达到不错的效果。这就为各类下游任务节省了大量的数据收集、清洗和标注的时间,大大节约了开发成本。另外一个就是基于大模型来适配新任务,可能并不需要调整大量的参数,只需要调整非常少的参数量就可以,有很多parameterefficient的微调方法都能得到不逊色于全量参数调整的性能。但是,网络任务的多样性可能远远超过自然语言领域。我们需要深入研究大模型泛化性的理论基础,为什么可以使用少量数据和参数就可以学习到新的任务知识,然后才能去有针对性的优化NetGPT在网络任务上的泛化性能。虽然这方面已经有一些非常重要的研究理论,包括过参数化等理论,但是其深层次的理论框架依然没有建立,包括我们应该建立起怎样的数学或者分析模型来对大模型进行定量的分析等。 (3)