文档名称文档密级 2024-11-19第1页,共24页 6G网络面向大模型的分布式学习白皮书 FoundationModel-Oriented 6GNetworkDistributedLearningWhitepaper 目录 摘要3 1关于6G智能普惠的断言4 1.1AGI服务将在6G时代普及4 1.2大模型提供智能服务的成本接近于零4 1.3每个人都将拥有自己的大模型5 1.4网络传输内容将从数据转向模型5 2面向大模型的MFD分布式学习模式7 2.1联邦学习模式的挑战7 2.2MFD分布式学习模式8 2.3模型在网络内像IP包一样传输11 2.4模型可以自由缩放13 2.5支持异构模型间的知识分享15 2.6特轻量化自组织的学习流程17 3MFD应用示例19 3.1Net4LM的智能协作机器人19 3.2LM4Net站间协同21 4总结和展望22 5参考文献23 摘要 6G愿景是实现智能普惠,支持将AI服务随时、随地的提供给每个人,这将驱动6G网络成为一个分布式AI计算平台。而到6G时代,端边云都将部署不同尺寸的大模型,大模型无处不在,端边云节点之间交互的主要内容将从数据转为模型,由此,本文提出一种新的面向大模型的、去中心化的、原生支持无线网络边缘异构动态环境的MFD (ModelFollowData)分布式学习模式,旨在让模型在靠近数据的地方进行训练和推理,避免大量数据传输带来的传输能耗和隐私问题,同时可以充分利用6G网络的分布式AI算力。针对联邦学习存在依赖可信中心节点、通信开销大和异构支持性差等问题,MFD将神经网络模型构建为通信数据包,使得模型在网络中能够像数据包一样传输,并且可以自由缩放,实现异构模型间高效的知识分享和轻量化自组织的学习流程。可以预测,MFD将成为6G网络的原生分布式学习模式,支撑AGI服务的普及。 1关于6G智能普惠的断言 1.1AGI服务将在6G时代普及 大模型(Foundationmodel)技术的快速崛起并已取得了非凡的成功。而大模型技术还将会持续快速演进,以GPT为例,从2020年的GPT3到2023年的GPT4,再到未来的GPT8乃至更高版本,大模型的尺寸不断增加,并且可以达到令人印象深刻的智力水平;而StarGate项目旨在推动人工智能研究和开发的界限,并提出到2028年实现人工通用智能(AGI)的目标。基于这样的趋势,我们预测基于AGI的智能服务将在6G时代普及。 图1通用人工智能(AGI)发展进程 1.2大模型提供智能服务的成本接近于零 规模理论(ScalingLaw)是大模型背后的核心逻辑,从目前看也是通往AGI最为可行的路径。而从经济价值上看,大模型可以通过模型缩放来生成或产生几乎免费的满足用户需求的各类智能服务,而无需手工制作。以OpenAI提供的GPT系列服务为例,其收费持续下降,近期推出的GPT3.5Turbo替代产品GPT-4omini,收费大幅下降到百万token输入/输出15美分/60美分,比GPT3.5Turbo便宜超过60%以上,而对比GPT-4o 的收费更是便宜了近97%,甚至一些公司已开始推出了免费的大模型服务。而随着大模型参数共享、权重剪枝、压缩与蒸馏、硬件加速、分布式训练/推理等相关技术的发展和突破,基础大模型在推理速度和效率将不断提升,并且随着大模型的普及和规模效应,也使得单次服务的边际成本下降,到6G时代,大模型的智能服务成本将接近于零。 1.3每个人都将拥有自己的大模型 目前大模型通常部署在云端,用户通过互联网访问各种智能服务。这种完全在数据中心集中部署的方式往往意味着巨量的算力,及随之带来惊人的能耗,如Stargate项目预期需要百万级AI芯片,数十亿瓦的功率来运行。而随着移动终端和在网算力能力的极大提升,已可以将大模型分布式部署在终端和网络中,一方面是数据安全和用户隐私保护的提升;另一方面,分布式部署也有助于解决大模型的所有权问题,如部署在终端的大模型个性化增量更新过程中,不可避免的涉及用户拥有的个性化数据,由此,用户将不可避免的倾向于获得更新后的大模型所有权。 1.4网络传输内容将从数据转向模型 从大模型的规模理论来看,模型性能与计算量、模型参数量和训练数据量之间存在正相关的关系。这也导致模型的参数量在不断增加,从百亿到千亿甚至万亿。相应的,用来训练大模型的数据量,也需要以指数级暴增。据网络公开的数据,以OpenAI为例,从GPT-1到GPT-3,其训练数据集就从4.5GB指数级增长到了570GB,以此类推,那GPT-5、GPT-6需要的训练数据更是天文数字。 图2大模型性能与参数量和数据量之间的关系 构建AGI大模型,数据将成为首要障碍。二十几年来互联网积累的海量数据可以说为此次AI浪潮兴起奠定了坚实基础,而人工智能研究和预测组织Epoch在其发表的论文里预测,现有的高质量的文本数据会在2027年消耗殆尽,未来的大模型进一步演进甚至实现AGI,并应用到社会生活及各行业中,势必需要挖掘更多的高价值数据。值得注意的是,传统的模型训练方式是将大量数据收集到数据中心进行集中训练,即数据跟随模型(DataFollowModel,DFM),将带来巨大的通信开销和安全隐私风险,这种数据跟随模型的模式需要改变。而随着大模型被直接部署在终端和网络,将为进一步挖掘本地数据价值提供了可能性,如通过模型迁移等方式进行个性化的智能定制,相比与原始大模型可以更加高效准确的提供推理决策。而这些分布式大模型在各自学到新的知识后,将很自然的通过相互学习分享来进一步提升模型能力,随着大模型无处不在,可以预见,未来网络中传输的主要内容将从数据转变为模型。 基于以上的判断,到6G时代需要实现大模型智能服务随时、随地的提供给每个人,这其中6G网络将扮演重要角色。一方面,结合6G的通感能力,大模型可以更容易与 物理世界同步,成为世界模型;另一方面,完全基于集中的数据中心来提供智能服务的模式,存在海量通信开销、安全隐私及集中电力供给等挑战,而6G网络可以作为一个分布式AI计算平台,来更高效实现智能普惠。 2面向大模型的MFD分布式学习模式 2.1联邦学习模式的挑战 联邦学习模式做到了传输的是模型而不是数据,并是一个解决数据所有权和隐私问题的价值路径,已在一些领域取得了成功的应用。联邦学习的目标是将数据放在用户本地进行模型更新,然后将模型参数发送给数据中心。数据中心收集参与者的模型更新参数,并进行聚合操作然后再下发给愿意参与联合训练的个体。联邦学习虽然传递的也是模型,但是在面向未来分布式大模型的学习和6G网络场景仍存在一些不足。 首先,为了进行多节点的模型聚合,需要有一个可信的中心服务器,所有的节点都是与中心服务器进行模型交互,这不仅带来了通信和计算瓶颈,而且也存在较大的安全风险[5]。虽然去中心的联邦学习(DFL)也有大量的研究工作[6][7][8],却也还面临失去中心管理导致效率降低、模型版本混乱、和性能下降等问题[5]。 其次,联邦学习频繁的模型梯度交互带来了巨大的通信开销[9],特别是面向大模型的联邦学习。以Llama2-7B模型为例,10个节点进行100轮次的全局训练需要的传输量达到了28TB。即使通过模型压缩和设备抽样等优化技术,通信依然会成为最大的瓶颈。此外,无线网络传输速率的不对称性(上行速率远低于下行速率)会进一步加剧移动终端的传输差异,从而引发通信瓶颈[10],影响联邦学习的性能 再次,联邦学习的异构支持性差,其分布式训练通常要涉及多样的终端设备,以覆盖大量的数据样本去提升深度神经网络模型分布式训练的性能。在现实中,参与训练的终端设备大多是异构的,即具有不同的存储容量、计算能力和网络条件,由于联邦学习分布式训练的同步性原则[11],整个联邦学习系统的训练时延可能会因为一些过长训练时延的终端设备而急剧增加,产生“落后者效应”[12]。另外,不同设备上运行的模型也存在异构性,在结构,尺寸和超参配置上不尽相同,为联邦学习进行模型的聚合带来了挑战[13]。为此,6G网络需要一种非联邦学习的分布式学习模式,需要结合无线网络和无处不在的大模型特点进行原生设计。 2.2MFD分布式学习模式 在6G时代,模型将成为重心,数据在哪里,模型就去哪里,让模型跟随数据(ModelFollowData,MFD)。6G网络在连通海量终端的同时,原生支持模型在靠近数据的地方进行训练和推理,并在无线网络内实现模型传输和分享,这是模式的转变(shiftofparadigm),称之为MFD分布式学习模式。 MFD分布式学习模式避免了大量数据传输带来的传输能耗和隐私问题,同时可以充分利用分布式的算力,减少对数据中心的述求。MFD的理念是将神经网络模型构建为通信数据包,使得模型在网络中能够像数据包一样被高效传输。同时,MFD不需要像联邦学习一样,有一个控制锚点对整个系统的模型交换进行控制,提高了部署的灵活性。 图3MFD分布式学习框架 MFD分布式学习一个重要的出发点是原生支持无线网络边缘场景,充分考虑无线网络的具有特点,包括: 超动态性:终端与基站之间的无线连接受到的干扰和损耗会受到周边街道环境、其他基站的业务状态变化的影响,从而影响终端与基站的上下行连接速率;终端具有很强的移动性,可能从小区中心移动到边缘,切换到其他小区;基站会在忙时和闲时之间变换,终端在没有上下行业务时也会进入空闲状态; 超异构性:网络中的物理设备终端来自不同的供应商,导致了复杂的网络异构性。例如旗舰手机的计算能力比低端手机强;受观察空间的限制,各网络节点采集的数据在类型和分布上具有明显的异构性;另外近中远点的终端连接速率也有很大差别,还有不同的模型结构和任务类型等; 超分布性:无线网络的整体设计趋向分布式和扁平化,网络中的网元、基站和终端的在大范围内分布式部署,使得网络设备在各个区域间需要建立复杂的连接。特别是UE和网络通过空口传输,随着越来越多的业务,特别是大模型业务被迁移到移动终端上,频谱资源的稀缺性将进一步凸显。在此背景下,分布式学习算法应用到网络内,需要进 一步减少通信开销,提升传输效率; 超规模性:无线网络中同时参与分布式学习的节点规模可以非常大。这种分布式协作可以打破地域限制,实现跨区域协作。例如,部署分布式学习在不同省市的设备之间。组织网络中的大规模分布式学习需要网元、基站和终端间进行系统性管控,这对协作效率和性能是一个非常大的挑战。 MFD分布式学习需要从以上无线网络的固有特点出发进行设计和优化,应具备以下关键特征: 模型在网络内像IP包一样传输:模型作为知识载体在网络设备间高效传输,而不是传输原始数据,或者频繁交互中间梯度。同时,模型在网络中传输的同时应该能感知到数据和计算资源的; 模型可以自由的缩放:模型可以自由地缩小和扩展,通过对模型进行压缩,抽象出要传递出去的核心知识;接收到模型的设备按照需要进行模型的扩展,得到可正常使用的模型; 支持异构模型间的知识分享:不同厂家设备上的算力和数据类型不同,支持的模型结构、尺寸、任务类型不一,导致在这些设备间进行智能协作比较困难,需要MFD分布式学习具备良好的异构支持性; 轻量化自组织的学习流程:一次分布式学习的协作范围可能非常大,甚至跨越不同覆盖地域。在传统网络中只需要进行邻区间的协作,如果要组织协调如此大范围的分布 式协作,对于网络的管控能力是相当大的挑战。因此6G网络内的MFD分布式学习更适合轻量化自行组织的方式,降低管控复杂度。 MFD分布式学习的关键技术特征与无线网络特点之间的关系如图4所示,将在后续章节进行详细解释和阐述。 图4MFD分布式学习关键技术特征与无线网络特点之间的关系 2.3模型在网络内像IP包一样传输 模型经过大量数据的训练,在参数的不断调整中,总结并记忆数据中呈现出的特征和规律。因此,模型是对大量数据中携带信息的提取和压缩,相比于传输原始数据,传输模型是更加高效的信息交互方式。然而,MFD并不希望像联邦学习一样,在网络中传输大量的临时性的模型梯度,这些梯度