面向AI大模型的智算中心 网络演进白皮书 (2023年) 中国移动通信研究院 目录 前言3 1.AI业务发展趋势4 1.1.人工智能技术发展趋势4 1.2.人工智能业务发展趋势6 1.3.人工智能政策发展趋势7 2.AI大模型对网络的需求8 2.1.超大规模组网需求8 2.2.超高带宽需求9 2.3.超低时延及抖动需求10 2.4.超高稳定性需求10 2.5.网络自动化部署需求11 3.当前网络能力与业务需求的差异点11 3.1.规模差距分析12 3.2.带宽差距分析13 3.3.稳定性差距分析14 3.4.时延、抖动差距分析15 3.5.自动化能力差距分析16 4.面对差异网络应对举措17 4.1.大规模组网关键技术17 4.1.1网络设备硬件本身改进17 4.1.2端网协同的流控改进19 4.2.超高带宽关键技术20 4.2.1网络-应用协同设计释放算力20 4.2.2链路负载均衡优化技术20 4.2.3低功耗的400G/800G互联方案22 4.3.超高稳定性关键技术22 4.3.1基于硬件的快速感知能力23 4.3.2基于硬件的快速收敛能力23 4.3.3层次化的网络故障自愈能力23 4.4.超低时延关键技术24 4.4.1集合通讯算法和网络拓扑协同24 4.4.2DPU硬件卸载24 4.4.3静态转发时延优化25 4.5自动化关键技术25 5.总结和展望26 术语定义27 缩略词表27 前言 人工智能是数字经济的核心驱动力,AI大模型是人工智能的新引擎。AI大模型指通过在海量数据上进行预训练,能够适应多种下游任务的模型,具有强大的泛化能力、自监督学习功能和精度突破性能。其已经在自然语言处理、计算机视觉、气象预报等多个领域取得了令人瞩目的成果。大模型的发展是大势所趋,未来将会助推数字经济,为智能化升级带来新范式。 近年来,随着ChatGPT等生成式人工智能(AIGC)的突飞猛进,全球范围内的经济价值预计将达到数万亿美元。尤其在中国市场,生成式AI的应用规模有望在2025年突破2000亿元。这一巨大的潜力不仅吸引着业内领军企业竞相推出万亿、10万亿参数量级别的大模型,而且对底层GPU支撑规模提出了更高的要求,达到了万卡级别。然而,如何满足如此庞大规模的训练任务,对网络的规模、性能、可靠性和稳定性等方面提出了前所未有的挑战。以GPT3.5为例,其训练过程依赖于微软专门建设的AI超算系统,由1万个V100GPU组成的高性能网络集群,总计算力消耗约为3640PF-days。在这种情况下,寻求提供极致高性能网络已成为人工智能领域的重要研究方向之一。 本白皮书将从AI业务发展的历程出发,深入研究大模型对网络能力的需求,分析当前网络与业务需求的差距,并探索网络技术发展趋势以弥补这一差距。我们希望,通过本白皮书的研究和分析,为未来面向AI大模型的智能计算中心网络发展提供有益的参考和启示。本白皮书由中国移动研究院牵头编制,联合编制单位:华为技术有限公司、锐捷网络股 份有限公司、思博伦通信科技(北京有限公司)、中兴通信股份有限公司、上海云脉芯联科技有限公司、星云智联科技有限公司、中科驭数(北京)科技有限公司、博通公司、是德科技 (中国)有限公司、北京大禹智芯科技有限公司 本白皮书的版权归中国移动研究院所有,并受法律保护。转载、摘编或利用其它方式使用本白皮书文字或者观点的,应注明来源。 1.AI业务发展趋势 1.1.人工智能技术发展趋势 人工智能(AI)是一种使计算机和机器能够表现出智能和类似人类思维的能力的技术和方法论。它通常包括学习与推理、语言和语音识别、视觉感知、自动化控制等多个领域。自从20世纪50年代,人工智能的研究开始以来,AI已经走了一个漫长的历程,经历了许多发展与进步,也经历了漫长的寒冬。 图1-1人工智能发展时间轴 符号主义与专家系统(1956年-1980年),AI领域的创始人之一约翰·麦卡锡在1956年提出了“人工智能”这一术语后,AI的符号推理阶段就正式开始了。符号推理阶段的主要发展是建立起了人工智能的推理基础。在这个阶段,人们将人类智能中的逻辑进行了形式化,创造了一种称为“推理形式”的数学表示方法。 联接主义与机器学习(1980年-2012年),AI开始了一些深度学习和神经网络方面的探索,这两种技术是使用机器学习算法进行自动学习和推理的两种方式。1986年,Rumelhart和McClelland的研究进一步加强了神经网络代表的连接主义观点,这标志着AI进入了“连接主义时代”。 深度学习(2012年-2017年),20世纪50年代,人们开始尝试模拟人脑的神经网络,以解决一些计算机视觉和语音识别问题。后来的时间,神经网络由于计算复杂度和可解释性等问题,经历了长时间的寒冬。直到2012年,Hinton等人提出了深度学习中一种新的神经网络结构--卷积神经网络,并在ImageNet图像识别竞赛中获得了显著的成果。卷积神经网络具有重大的意义,推动了计算机视觉和深度学习的发展,并开拓了探索神经网络的新领域。2016年基于深度学习的AlphaGo战胜围棋世界冠军,再次点燃人们对深度学习探索的热情。 Transformer模型预训练(2017年-2022年),2017年谷歌发布论文《AttentionIsAllYouNeed》,Transformer模型引入了一种新的机制——注意力机制(Attention),用于学习不同位置的词汇之间的关联关系,从而更好地表征大型语言文本中的语义和词法关系。在 Transformer中,可以使用多头注意力机制来学习输入序列中不同的信息,并根据这些信息进行分类、生成或其他任务。 Transformer架构由多个堆叠的自注意力层和前馈神经网络层组成,这种设计使得它在构造大型深度神经网络时具有巨大优势。自注意力机制解决了长序列输入的信息传递问题,允许不同位置的单词或符号与其他单词或符号之间产生交互,从而更好地捕捉序列之间的依赖关系。这意味着Transformer可以处理极长的文本序列,而不会产生梯度消失或爆炸问题。同时,Transformer架构具有并行计算的能力,可以同时处理输入序列的不同部分。这样可以更快地训练和推理大型深度神经网络,尤其是在使用分布式计算和GPU并行计算的情况下。由于它的特殊结构和设计,Transformer架构适合构造大型神经网络,由此开启了深度学习大模型时代。大模型也被称为基础模型(FoundationModel),其通常定义为:参数规模较大(亿级)并使用Transformer结构,在大规模无标注语料进行自监督训练后,可以赋能一系列下游任务的模型。 BERT和GPT是两种最知名的基于Transformers的自然语言处理模型。虽然都是基于Transformers,但GPT只使用了Transformer的解码器部分,而BERT使用了双向Transformer的编码器部分;GPT是从左到右建模文本,确保下一个预测是来自上下文的正确,而BERT是双向建模文本,不仅考虑上下文,还考虑了文本的未来信息。由于建模方式的不同使得GPT更适用于自然语言生成任务,如文本摘要、对话生成等,而BERT更适用于下游任务,如自然语言理解、文本分类、问答系统等。 2018年10月,Google团队发布了BERT模型。2019年7月,华盛顿大学研究团队在BERT模型上进行了改进,提出了RoBERTa模型。RoBERTa采用了更大的训练数据集和更长的训练时间,并且修改了模型的Mask机制,取得了更好的效果。2020年2月,Google团队提出了ALBERT模型,这是BERT模型的一个轻量级变体。ALBERT通过参数共享和跨层参数连接的方式减少了模型大小,同时在性能上与BERT相当甚至略有提升。BERT模型经过不断的改进和迭代,逐渐成为现代自然语言处理领域中的基础和标准之一。 2018年,OpenAI团队发布了GPT-1,它使用了Transformer架构,采用了无监督学习的方法进行训练,其目标是预测下一个词语。该模型使用了8个Transformer编码器层和12个Transformer解码器层。它被证明在自然语言生成任务中比较有效。2019年,GPT-2被提出,相比GPT-1,GPT-2具有更多的参数和更高的预测能力。它使用了48个Transformer编码器层和12个Transformer解码器层,参数数量达到了1.5亿个。2020年,OpenAI团队提出了GPT-3,它是目前最大的语言模型之一,拥有1750亿个参数。相比于GPT-2,在生成 文本的质量、多样性和准确性等方面都有明显提升。GPT-3采用的是自回归的生成方式,通过预测下一个词来生成文本。 ChatGPT是OpenAI公司于2022年11月底上线的一款具有跨时代意义的大规模智能语言模型,它使用了OpenAI实验室开发的GPT-3.5和GPT-4系列大型语言模型,并采用了监督学习和强化学习等技术进行微调。具体而言,为了让预训练的语言模型更加智能和准确,可以在少量已标注的数据上进行调优。这种方法会使用已标注的数据训练一个有监督的策略,用于生成从给定的提示列表所需的输出。标注者们会对SFT模型输出结果进行打分,这样便可以创建一个由输出数据组成的打分(排序)数据集。然后,会在该数据集上进行训练一个打分模型。最后,使用近端策略优化进一步通过打分模型对语言模型进行调整,这种方法旨在提高ChatGPT生成输出时的准确性和自然度。ChatGPT展现的语言能力令人印象深刻,是具有跨时代意义的语言模型。 由于大模型巨大的参数量,需要分布式计算、GPU/CPU等异构技术及多种并行模式等方式进行训练与推理。而智算中心网络用于连接CPU、GPU、内存等池化异构算力资源,贯穿数据计算、存储全流程,网络性能的提升对提升算力水平具有关键意义。 1.2.人工智能业务发展趋势 中国的人工智能研究和发展方面已经取得了许多重大成就,包括在自动驾驶、机器人、语音识别和自然语言处理等领域。AI能力已渗透多行业多环节,其中对话式AI产品已在部分行业进入规模化落地阶段,优化人机交互形式、流程与赋能方案,为企业“降本增效”。ChatGPT的出现将助力对话式AI进一步对产业赋能。 云服务提供商提供的三种基础服务模式为SaaS、PaaS及IaaS。伴随着人工智能的发展,涌现出了人工智能即服务(AIaaS)和模型即服务(MaaS)。 人工智能即服务,已经成为了中国IT行业的一个关键词。AIaaS为企业和机构提供了一种创新的商业模式,使得他们能够更加便捷地获得人工智能服务,同时也促进了人工智能技术的进步与发展。可以提供AIaaS的企业数量也在持续增加,包括如华为云、百度云、阿里云和腾讯云等等。这些企业在AI领域投入巨大的资金和人力,为各行业提供了高品质的人工智能服务。AIaaS的应用领域也不断拓展。AI让传统的企业也能够通过数字化的方式创新发展。例如,金融和零售业领域的使用人工智能技术,使得他们能够更加准确的进行风险管理和发现消费者需求等。随着AIaaS市场的规模不断扩张,越来越多的企业也纷纷开辟了 自己的人工智能服务领域。迫切需要AI赋能的领域包括教育、医疗、智慧城市和智能制造等。随着互联网和人工智能技术的融合,这些领域都会产生诸多的新的商业模式,从而带动整个行业的发展。 模型即服务(MaaS)是基于云端提供预先训练好的机器学习模型,无需自己从头构建和维护模型。换句话说,MaaS是为那些需要支持应用程序或工作流程的开发人员、数据科学家和企业提供预先构建好的模型的方式。MaaS平台方通过大量数据L0层的基础大模型,再结合行业数据训练L1层的行业模型,用户通过API或模型压缩的方式获得L2层的垂直领域模型。 MaaS提供商通常提供经过大量数据集训练和优化的模型,以支持特定的用例,例如图像识别、自然语言处理、预测分析和欺诈检测,这些模型用户可以通过多方式(API、在线部署)进行使用并获得推理结果。 这种方法有多个