行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

新型智算中心改造系列报告一：网络成大模型训练瓶颈，节点内外多方案并存

信息技术 2024-05-05 熊莉国信证券米软绵gogo

智能算力需求与新型智算中心

智能算力需求增长

AI模型迭代与数量增长：AI模型的能力提升依赖于更大规模的训练数据和参数量，这导致了更高的算力需求。同时，AI模型种类的多样化和各厂商自主模型的研发，进一步推动了算力需求的增长。
AI应用爆发：随着AI应用的普及，用户数量的爆发促使推理侧的算力需求迅速增长。

智算中心发展

从集群到超级池化：随着AI大模型参数量的增长，新型智算中心开始从传统的集群架构向超级池化阶段转变。这一阶段强调了对设备形态、互联方案、存储、平台、散热等方面的全面升级要求。

网络互联方案

节点内互联：节点内互联方案包括英伟达的NVLink和开放式技术方案如OAM与UBB。NVLink已经发展至第五代产品，支持高达576个GPU之间的无缝高速通信。
节点间互联：节点间互联主要采用InfiniBand和RoCEv2技术。InfiniBand在网络性能、集群规模、运维等方面展现出显著优势，而RoCEv2则提供了分布式网络的灵活性。

投资建议与风险提示

投资建议：AI大模型的快速发展对数据中心的计算、存储、网络提出了新的挑战，新型智算中心成为发展趋势。考虑到AI大模型需要部署在高速互联的多个AI芯片上，建议关注宝信软件等企业。
风险提示：宏观经济波动、下游需求不足、AI伦理风险等均为潜在风险。

智算中心的技术演进与网络互联

智算中心技术体系

以GPU为核心：智算中心是以GPU、AI加速卡等智能算力为核心，集约化的新型数据中心。
“三层两域”架构：包括基础设施层、智算平台层和应用使能层，以及智算运维域和智算运营域。

网络互联的演变

从集群到超级池化：智算中心的网络互联经历了从节点内互联到节点间互联的演进，适应了AI大模型的算力需求。
互联方案：节点内互联采用NVLink或开放式技术方案，节点间互联则倾向于InfiniBand或RoCEv2技术。

模型训练中的网络瓶颈与解决方案

分布式并行运算的重要性

分布式并行运算：AI大模型需要在高速互联的多个AI芯片上进行分布式并行运算，以应对巨量的数据和模型参数。

网络成为瓶颈的原因

通信需求：随着模型参数量的增长，卡间通信需求增加，成为制约AI算力瓶颈。

解决方案：互联协议与技术

NVLink与OAM/UBB：NVLink已发展至第五代，支持更高带宽和更多链接数。OAM和UBB方案则提供了统一的扣卡模组形态和基板拓扑结构，支持高速互联。
InfiniBand与RoCEv2：InfiniBand在无损数据传输和大规模集群支持上表现优异，而RoCEv2则提供了一种分布式网络解决方案。

结论

通过深度分析AI大模型的需求、智算中心的技术发展以及网络互联方案，可以看出AI技术的快速发展对数据中心提出了前所未有的挑战，同时也带来了巨大的发展机遇。新型智算中心的建设和网络互联技术的优化将是未来发展的关键。

证券研究报告|2024年5月5日新型智算中心改造系列报告一：网络成大模型训练瓶颈，节点内外多方案并存行业研究·行业专题计算机·人工智能投资评级：超配（维持评级）证券分析师：熊莉021-61761067 xiongli1@guosen.com.cnS0980519030002 联系人：艾宪0755-22941051 aixian@guosen.com.cn •AI大模型训练和推理拉动智能算力需求快速增长。a）模型迭代和数量增长拉动AI算力需求增长：从单个模型来看，模型能力持续提升依赖于更大的训练数据量和模型参数量，对应更高的算力需求；从模型的数量来看，模型种类多样化（文生图、文生视频）和各厂商自主模型的研发，均推动算力需求的增长。b）未来AI应用爆发，推理侧算力需求快速增长：各厂商基于AI大模型开发各类AI应用，随着AI应用用户数量爆发，对应推理侧算力需求快速增长。 •智算中心从集群走向超级池化。智算中心是以GPU、AI加速卡等智能算力为核心，集约化建设的新型数据中心；随着大模型普遍进入万亿规模，算力、显存、互联需求再次升级，高速互联的百卡“超级服务器”可能成为新的设备形态，智算中心将走向超级池化阶段，对设备形态、互联方案、存储、平台、散热等维度提出新的要求。 •网络互联：节点内外多方案并存。1）节点内：私有方案以英伟达NVLink为代表，NVLink已经发展至第五代产品，同时支持576个GPU之间的无缝高速通信；开放技术方案以OAM和UBB为主，OCP组织定义了业内通用的AI扣卡模组形态（OAM）-基板拓扑结构（UBB）设计规范。2）节点间：主要方案为Infiniband和RoCEv2；Infiniband网络主要包括InfiniBand网卡、InfiniBand交换机、SubnetManagement（SM）、连接件组成；RoCEv2网络是一个纯分布式的网络，由支持RoCEv2的网卡和交换机、连接件、流控机制组成。InfiniBand在网络性能、集群规模、运维等方面具备显著优势。 •投资建议：AI大模型的参数量和训练数据量的快速增长，对数据中心的计算、存储、网络等提出新的要求，新型智算中心是产业发展趋势；AI大模型需要部署在高速互联的多个AI芯片上，数据样本和模型结构被切分到多张卡或者节点上，卡间或节点间不仅有训练数据通信，还有模型梯度的频繁传递，对智算中心的网络互联提出新的要求，建议关注宝信软件。 •风险提示：宏观经济波动、下游需求不及预期、AI伦理风险等。 01 智算中心：从集群走向超级池化 02 网络互联：节点内外多方案并存 03 投资建议及风险提示 •训练数据量+参数量大幅提升，模型能力“涌现”。根据2022年谷歌、斯坦福大学和Deepmind联合发表的《EmergentAbilitiesofLargeLanguageModels》，很多新能力在中小模型上线性放大都得不到线性的增长，模型规模必须呈指数级增长并超过某个临界点，新技能才会突飞猛进。同时，模型的参数量和数据量在一定程度下是正相关的，因为：a）在小规模数据上训练模型时，若模型参数量过大，可能出现过拟合情况；b）在大规模数据上训练模型时，若不增加模型参数量，可能造成新的知识无法存放的情况。图1：训练数据大幅提升后，模型能力“涌现” 资料来源：JasonWei等著-《EmergentAbilitiesofLargeLanguageModels》-TransactionsonMachineLearningResearch（2022）-P4，国信证券经济研究所整理图2：模型参数大幅提升后，模型能力“涌现” 资料来源：JasonWei等著-《EmergentAbilitiesofLargeLanguageModels》-TransactionsonMachineLearningResearch（2022）-P27，国信证券经济研究所整理 •大模型训练+推理拉动智能算力需求快速增长。a）模型迭代和数量增长拉动AI算力需求增长：从单个模型来看，模型能力持续提升依赖于更大的训练数据量和模型参数量，对应更高的算力需求；从模型的数量来看，模型种类多样化（文生图、文生视频）和各厂商自主模型的研发，均推动算力需求的增长。b）未来AI应用爆发，推理侧算力需求快速增长：各厂商基于AI大模型开发各类AI应用，随着AI应用用户数量爆发，对应推理侧算力需求快速增长。图3：全球智能算力快速增长图4：中国智能算力快速增长智能算力（基于FP32计算，ZFLOPS） 52.50 0.23 0.45 60 50 1200 1000 智能算力（基于FP16计算，EFLOPS） 40 30 20 10 0 20212022 2030 800 600 400 200 0 1117.4 812.5 616.6 497.1 414.3 259.9 155.2 75 20202021202220232024202520262027 资料来源：《中国算力发展指数白皮书（2022年&2023年，中国信通院）》、国信证券经济研究所整理资料来源：《2023-2024年中国人工智能计算力发展评估报告（IDC&浪潮信息）》、国信证券经济研究所整理 •智算中心是以GPU、AI加速卡等智能算力为核心，集约化建设的新型数据中心。智算中心为AI大模型训练、推理提供算力支撑，同时为AI应用提供算力服务、数据服务和算法服务；以中国移动推出了NICC新型智算中心为例，可分为“三层两域”： •基础设施层：提供计算、存储、网络等硬件资源。 •智算平台层：作为资源管理核心，提供裸金属、虚机和容器等多样化实例以及细粒度的资源池化能力；搭建算力原生平台提供应用跨架构迁移能力。 •应用使能层：集成行业主流AI开发框架。 •智算运维域：负责对底层IaaS进行管理维护，确保系统稳定运营。 •智算运营域：对接外部客户，提供计量计费、访问、交易等界面，对内根据上层任务进行资源编排调度。图5：中国移动NICC新型智算中心的“三层两域”架构资料来源：《中国移动NICC新型智算中心技术体系白皮书》，国信证券经济研究所整理 •智算中心逐步从“集群时期”走向“超级池化时期”。随着AI大模型参数量增长，新型智算中心的建设既要考虑计算、存储、网络三大维度横向协同，也应兼顾软件平台与硬件资源的纵向协同，聚焦于“新互联”、“新算效”、“新存储”、“新平台”、“新节能”。 •智算中心发展推动力：模型参数量快速增长，对算力、显存和互联提出新的需求。 •集群时期（2022-2024年）：数据及模型出现巨量化趋势，千亿级模型出现，对算力底座和拓展性提出更高要求。 •设备形态：GPU、AI芯片以扣卡模组为主，服务器形态多为8卡，DPU按需引入解决裸金属管理、存储加速等业务痛点；硬件资源开始按集群的方式部署。 •互联方案：以服务器节点为界限，节点内采用高速计算总线，节点间采用100G/200G高速无损网络。 •存储方面：原先独立部署的文件、对象存储逐渐向融合存储演进，提升数据交互效率； •平台方面：具备池化算力分配能力，实现底层智算资源的细粒度分配、动态调度和一体化管理；同时，引入分布式并行训练框架提升模型训练效率； •散热方面：为配合高算力需求，散热系统逐步从风冷向冷板式液冷过渡。图6：大模型参数规模增长速度超过摩尔定律，推动智算中心发展资料来源：《生成式AI（StateofGenerativeAI2023）》-启明创投、未尽研究-P8、国信证券经济研究所整理 •超级池化时期（2025年开始）：大模型普遍进入万亿规模，算力、显存、互联需求再次升级，高速互联的百卡“超级服务器”可能成为新的设备形态。 •设备形态：从单机8卡服务器逐步转化为“超级服务器”，基于存算一体架构的大算力芯片将开始逐步应用。 •互联方案：内部打造统一的协议实现CPU、GPU、AI芯片、显存、存储等池化资源无缝连接；外部通过GSE等高性能交换网络，达到极高吞吐、极低时延的系统算力。 •存储方面：在“超级服务器”内支持内存池化技术，对外拓展支持全局统一存储。 •平台方面：构建基于算力原生平台的跨架构开发、编译、优化环境，屏蔽底层硬件差异，从软件层面最大化使能异构算力融通，以应对日益割裂的智算生态。 •散热方面：浸没式液冷逐步落地。图7：新型智算中心的发展路径资料来源：《中国移动NICC新型智算中心技术体系白皮书》，国信证券经济研究所整理 01 智算中心：从集群走向超级池化 02 网络互联：节点内外多方案并存 03 投资建议及风险提示 •分布式并行运算是发展趋势。AI大模型需要部署在高速互联的多个AI芯片上，主要由于：1）单芯片算力提升的速度明显低于模型参数的增长速率；2）巨量的模型参数和训练数据，已经远超单个AI芯片、单台服务器的计算能力。 •传统的中小AI模型：训练模式多采用单卡运行或单节点内多卡数据并行，每张卡或节点上都有完整的模型结构，卡间通信主要用于传输训练数据，因此通信需求不频发，带宽通常在几十GB，传统PCIe可满足要求。 •AI大模型：数据样本和模型结构被切分到多张卡或者节点上，卡间或节点间不仅有训练数据通信，还有模型梯度的频繁传递； •数据并行（DP）：每计算设备（卡或节点）都有一个完整模型，将数据集拆分到多个计算设备同时训练，在反向传播中，各个设备上的梯度进行归约操作求平均，再更新模型参数。 •模型并行（MP）：1）流水线并行（PP）：将模型按照“层”拆分为多个Stages放在每个计算设备上，训练过程是逐层顺序计算，通信数据量比DP小，点对点互联即可；2）张量并行（TP）：将模型在“层”内进行切分，训练过程中前向和反向传播中都设计Allreduce，通信量大且频繁，通常要求全互联（FC）或交换拓扑（Switch）。图8：模型参数量（及模型训练所需算力）增长显著高于GPU内存和吞吐量的增长资料来源：Rishi等著-《OntheOpportunitiesandRisksofFoundationModels》-arXiv（2022）-P97、国信证券经济研究所整理图9：不同的分布式并行策略及对应的卡间互联要求策略通信模式互联拓扑，带宽需求数据并行DP Allreduce 环状或全互联，常规需求，几~几十GB/s 流水线并行PP P2P 点对点相连，常规需求，几~十几GB/s 张量并行TP Allreduce 环状或全互联，带宽需求高，几百GB/s 资料来源：《中国移动NICC新型智算中心技术体系白皮书》、国信证券经济研究所整理 •智算中心内部网络互联可以分为节点内互联和节点外互联（此处以服务器为节点），节点内互联包括处理器之间、处理器与外设及存储之间互联，节点外互联主要指服务器之间互联。 •计算体系多种互联协议：自1978年intel开创x86体系以来，逐步衍生出各种物理特性、传输特性和功能特性不同的互联协议。 •处理器之间：UPI、CXL、PCIe、NVLink等； •处理器与外设及存储之间：Pcie、CXL、NVLink、SATA、SAS、NVMe等； •节点之间：Ethernet、IB等。图10：计算体系多种互联协议资料来源：《数据中心2030-华为》，国信证券经济研究所整理 •大模型场景，私有和开放技术方案并存。针对传统传统的中小模型，PCIe技术方案已经非常成熟；面向大模型场景，基于扣卡模组的卡间高速互联方案主要分为私有和开放技术两大类，私有方案以英伟达NVLink为代表，开放技术方案以OAM和UBB为主。 •私有方案以英伟达NVLink为代表。2014年英伟达发布第一代NVLink，旨在实现GPU芯片间低延迟、高带宽的数据互联，相较于传统PCIe方案，CPU和GPU之间共享数据的速度大幅提升。 •传统PCIe方案：PCIe由Intel2001

点击免费查看完整报告

新型智算中心改造系列报告一：网络成大模型训练瓶颈，节点内外多方案并存

智能算力需求与新型智算中心

智能算力需求增长

智算中心发展

网络互联方案

投资建议与风险提示

智算中心的技术演进与网络互联

智算中心技术体系

网络互联的演变

模型训练中的网络瓶颈与解决方案

分布式并行运算的重要性

网络成为瓶颈的原因

解决方案：互联协议与技术

结论

你可能感兴趣

新型智算中心改造系列报告二：拉动全球电力消耗增长，液冷渗透率快速提升

新型电力系统系列报告一：火电灵活性改造：推火电变革，促新能源消纳

电子行业深度报告：超节点系列报告一：国产超节点方案量产元年，看好以太网成为主流技术路径

新型电力系统系列报告（二）：火电灵活性改造：电网灵活性增量主体资源

房地产行业深度报告：地产+AI 工具系列报告之四：从地产投研到交易——OpenClaw的跨界实践（如何训练一只会交易能风控的“龙虾”）

乳制品行业复盘报告系列一：1980-2008：破瓶颈打开高成长，伊利蒙牛后来居上

食品饮料行业乳制品行业复盘报告系列一：破瓶颈打开高成长，伊利蒙牛后来居上

中国园区网络行业市场规模测算逻辑模型头豹词条报告系列

电商代运营行业系列报告（一）：快速增长背景下，机遇和挑战并存

中国园区网络行业市场规模测算逻辑模型头豹词条报告系列

新型智算中心改造系列报告一：网络成大模型训练瓶颈，节点内外多方案并存

你可能感兴趣

新型智算中心改造系列报告二：拉动全球电力消耗增长，液冷渗透率快速提升

新型电力系统系列报告一：火电灵活性改造：推火电变革，促新能源消纳

电子行业深度报告：超节点系列报告一：国产超节点方案量产元年，看好以太网成为主流技术路径

新型电力系统系列报告（二）：火电灵活性改造：电网灵活性增量主体资源

房地产行业深度报告：地产+AI 工具系列报告之四：从地产投研到交易——OpenClaw的跨界实践（如何训练一只会交易能风控的“龙虾”）

乳制品行业复盘报告系列一：1980-2008：破瓶颈打开高成长，伊利蒙牛后来居上

食品饮料行业乳制品行业复盘报告系列一：破瓶颈打开高成长，伊利蒙牛后来居上

中国园区网络行业市场规模测算逻辑模型 头豹词条报告系列

电商代运营行业系列报告（一）：快速增长背景下，机遇和挑战并存

中国园区网络行业市场规模测算逻辑模型 头豹词条报告系列

中国园区网络行业市场规模测算逻辑模型头豹词条报告系列

中国园区网络行业市场规模测算逻辑模型头豹词条报告系列