您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国信证券]:新型智算中心改造系列报告一:网络成大模型训练瓶颈,节点内外多方案并存 - 发现报告
当前位置:首页/行业研究/报告详情/

新型智算中心改造系列报告一:网络成大模型训练瓶颈,节点内外多方案并存

信息技术2024-05-05熊莉国信证券米***
AI智能总结
查看更多
新型智算中心改造系列报告一:网络成大模型训练瓶颈,节点内外多方案并存

证券研究报告|2024年5月5日 新型智算中心改造系列报告一: 网络成大模型训练瓶颈,节点内外多方案并存 行业研究·行业专题计算机·人工智能 投资评级:超配(维持评级) 证券分析师:熊莉021-61761067 xiongli1@guosen.com.cnS0980519030002 联系人:艾宪0755-22941051 aixian@guosen.com.cn •AI大模型训练和推理拉动智能算力需求快速增长。a)模型迭代和数量增长拉动AI算力需求增长:从单个模型来看,模型能力持续提升依赖于更大的训练数据量和模型参数量,对应更高的算力需求;从模型的数量来看,模型种类多样化(文生图、文生视频)和各厂商自主模型的研发,均推动算力需求的增长。b)未来AI应用爆发,推理侧算力需求快速增长:各厂商基于AI大模型开发各类AI应用,随着AI应用用户数量爆发,对应推理侧算力需求快速增长。 •智算中心从集群走向超级池化。智算中心是以GPU、AI加速卡等智能算力为核心,集约化建设的新型数据中心;随着大模型普遍进入万亿规模,算力、显存、互联需求再次升级,高速互联的百卡“超级服务器”可能成为新的设备形态,智算中心将走向超级池化阶段,对设备形态、互联方案、存储、平台、散热等维度提出新的要求。 •网络互联:节点内外多方案并存。1)节点内:私有方案以英伟达NVLink为代表,NVLink已经发展至第五代产品,同时支持576个GPU之间的无缝高速通信;开放技术方案以OAM和UBB为主,OCP组织定义了业内通用的AI扣卡模组形态(OAM)-基板拓扑结构(UBB)设计规范。2)节点间:主要方案为Infiniband和RoCEv2;Infiniband网络主要包括InfiniBand网卡、InfiniBand交换机、SubnetManagement(SM)、连接件组成;RoCEv2网络是一个纯分布式的网络,由支持RoCEv2的网卡和交换机、连接件、流控机制组成。InfiniBand在网络性能、集群规模、运维等方面具备显著优势。 •投资建议:AI大模型的参数量和训练数据量的快速增长,对数据中心的计算、存储、网络等提出新的要求,新型智算中心是产业发展趋势;AI大模型需要部署在高速互联的多个AI芯片上,数据样本和模型结构被切分到多张卡或者节点上,卡间或节点间不仅有训练数据通信,还有模型梯度的频繁传递,对智算中心的网络互联提出新的要求,建议关注宝信软件。 •风险提示:宏观经济波动、下游需求不及预期、AI伦理风险等。 01 智算中心:从集群走向超级池化 02 网络互联:节点内外多方案并存 03 投资建议及风险提示 •训练数据量+参数量大幅提升,模型能力“涌现”。根据2022年谷歌、斯坦福大学和Deepmind联合发表的《EmergentAbilitiesofLargeLanguageModels》,很多新能力在中小模型上线性放大都得不到线性的增长,模型规模必须呈指数级增长并超过某个临界点,新技能才会突飞猛进。同时,模型的参数量和数据量在一定程度下是正相关的,因为:a)在小规模数据上训练模型时,若模型参数量过大,可能出现过拟合情况;b)在大规模数据上训练模型时,若不增加模型参数量,可能造成新的知识无法存放的情况。 图1:训练数据大幅提升后,模型能力“涌现” 资料来源:JasonWei等著-《EmergentAbilitiesofLargeLanguageModels》-TransactionsonMachineLearningResearch(2022)-P4,国信证券经济研究所整理 图2:模型参数大幅提升后,模型能力“涌现” 资料来源:JasonWei等著-《EmergentAbilitiesofLargeLanguageModels》-TransactionsonMachineLearningResearch(2022)-P27,国信证券经济研究所整理 •大模型训练+推理拉动智能算力需求快速增长。a)模型迭代和数量增长拉动AI算力需求增长:从单个模型来看,模型能力持续提升依赖于更大的训练数据量和模型参数量,对应更高的算力需求;从模型的数量来看,模型种类多样化(文生图、文生视频)和各厂商自主模型的研发,均推动算力需求的增长。b)未来AI应用爆发,推理侧算力需求快速增长:各厂商基于AI大模型开发各类AI应用,随着AI应用用户数量爆发,对应推理侧算力需求快速增长。 图3:全球智能算力快速增长图4:中国智能算力快速增长 智能算力(基于FP32计算,ZFLOPS) 52.50 0.23 0.45 60 50 1200 1000 智能算力(基于FP16计算,EFLOPS) 40 30 20 10 0 20212022 2030 800 600 400 200 0 1117.4 812.5 616.6 497.1 414.3 259.9 155.2 75 20202021202220232024202520262027 资料来源:《中国算力发展指数白皮书(2022年&2023年,中国信通院)》、国信证券经济研究所整理 资料来源:《2023-2024年中国人工智能计算力发展评估报告(IDC&浪潮信息)》、国信证券经济研究所整理 •智算中心是以GPU、AI加速卡等智能算力为核心,集约化建设的新型数据中心。智算中心为AI大模型训练、推理提供算力支撑,同时为AI应用提供算力服务、数据服务和算法服务;以中国移动推出了NICC新型智算中心为例,可分为“三层两域”: •基础设施层:提供计算、存储、网络等硬件资源。 •智算平台层:作为资源管理核心,提供裸金属、虚机和容器等多样化实例以及细粒度的资源池化能力;搭建算力原生平台提供应用跨架构迁移能力。 •应用使能层:集成行业主流AI开发框架。 •智算运维域:负责对底层IaaS进行管理维护,确保系统稳定运营。 •智算运营域:对接外部客户,提供计量计费、访问、交易等界面,对内根据上层任务进行资源编排调度。 图5:中国移动NICC新型智算中心的“三层两域”架构 资料来源:《中国移动NICC新型智算中心技术体系白皮书》,国信证券经济研究所整理 •智算中心逐步从“集群时期”走向“超级池化时期”。随着AI大模型参数量增长,新型智算中心的建设既要考虑计算、存储、网络三 大维度横向协同,也应兼顾软件平台与硬件资源的纵向协同,聚焦于“新互联”、“新算效”、“新存储”、“新平台”、“新节能”。 •智算中心发展推动力:模型参数量快速增长,对算力、显存和互联提出新的需求。 •集群时期(2022-2024年):数据及模型出现巨量化趋势,千亿级模型出现,对算力底座和拓展性提出更高要求。 •设备形态:GPU、AI芯片以扣卡模组为主,服务器形态多为8卡,DPU按需引入解决裸金属管理、存储加速等业务痛点;硬件资源开始按集群的方式部署。 •互联方案:以服务器节点为界限,节点内采用高速计算总线,节点间采用100G/200G高速无损网络。 •存储方面:原先独立部署的文件、对象存储逐渐向融合存储演进,提升数据交互效率; •平台方面:具备池化算力分配能力,实现底层智算资源的细粒度分配、动态调度和一体化管理;同时,引入分布式并行训练框架提升模型训练效率; •散热方面:为配合高算力需求,散热系统逐步从风冷向冷板式液冷过渡。 图6:大模型参数规模增长速度超过摩尔定律,推动智算中心发展 资料来源:《生成式AI(StateofGenerativeAI2023)》-启明创投、未尽研究-P8、国信证券经济研究所整理 •超级池化时期(2025年开始):大模型普遍进入万亿规模,算力、显存、互联需求再次升级,高速互联的百卡“超级服务器”可能成为新的设备形态。 •设备形态:从单机8卡服务器逐步转化为“超级服务器”,基于存算一体架构的大算力芯片将开始逐步应用。 •互联方案:内部打造统一的协议实现CPU、GPU、AI芯片、显存、存储等池化资源无缝连接;外部通过GSE等高性能交换网络,达到极高吞吐、极低时延的系统算力。 •存储方面:在“超级服务器”内支持内存池化技术,对外拓展支持全局统一存储。 •平台方面:构建基于算力原生平台的跨架构开发、编译、优化环境,屏蔽底层硬件差异,从软件层面最大化使能异构算力融通,以应对日益割裂的智算生态。 •散热方面:浸没式液冷逐步落地。 图7:新型智算中心的发展路径 资料来源:《中国移动NICC新型智算中心技术体系白皮书》,国信证券经济研究所整理 01 智算中心:从集群走向超级池化 02 网络互联:节点内外多方案并存 03 投资建议及风险提示 •分布式并行运算是发展趋势。AI大模型需要部署在高速互联的多个AI芯片上,主要由于:1)单芯片算力提升的速度明显低于模型参数的增长速率;2)巨量的模型参数和训练数据,已经远超单个AI芯片、单台服务器的计算能力。 •传统的中小AI模型:训练模式多采用单卡运行或单节点内多卡数据并行,每张卡或节点上都有完整的模型结构,卡间通信主要用于传输训练数据,因此通信需求不频发,带宽通常在几十GB,传统PCIe可满足要求。 •AI大模型:数据样本和模型结构被切分到多张卡或者节点上,卡间或节点间不仅有训练数据通信,还有模型梯度的频繁传递; •数据并行(DP):每计算设备(卡或节点)都有一个完整模型,将数据集拆分到多个计算设备同时训练,在反向传播中,各个设备上的梯度进行归约操作求平均,再更新模型参数。 •模型并行(MP):1)流水线并行(PP):将模型按照“层”拆分为多个Stages放在每个计算设备上,训练过程是逐层顺序计算,通信数据量比DP小,点对点互联即可;2)张量并行 (TP):将模型在“层”内进行切分,训练过程中前向和反向传播中都设计Allreduce,通信量大且频繁,通常要求全互联(FC)或交换拓扑(Switch)。 图8:模型参数量(及模型训练所需算力)增长显著高于GPU内存和吞吐量的增长 资料来源:Rishi等著-《OntheOpportunitiesandRisksofFoundationModels》-arXiv(2022)-P97、国信证券经济研究所整理 图9:不同的分布式并行策略及对应的卡间互联要求 策略 通信模式 互联拓扑,带宽需求 数据并行DP Allreduce 环状或全互联,常规需求,几~几十GB/s 流水线并行PP P2P 点对点相连,常规需求,几~十几GB/s 张量并行TP Allreduce 环状或全互联,带宽需求高,几百GB/s 资料来源:《中国移动NICC新型智算中心技术体系白皮书》、国信证券经济研究所整理 •智算中心内部网络互联可以分为节点内互联和节点外互联(此处以服务器为节点),节点内互联包括处理器之间、处理器与外设及存储之间互联,节点外互联主要指服务器之间互联。 •计算体系多种互联协议:自1978年intel开创x86体系以来,逐步衍生出各种物理特性、传输特性和功能特性不同的互联协议。 •处理器之间:UPI、CXL、PCIe、NVLink等; •处理器与外设及存储之间:Pcie、CXL、NVLink、SATA、SAS、NVMe等; •节点之间:Ethernet、IB等。 图10:计算体系多种互联协议 资料来源:《数据中心2030-华为》,国信证券经济研究所整理 •大模型场景,私有和开放技术方案并存。针对传统传统的中小模型,PCIe技术方案已经非常成熟;面向大模型场景,基于扣卡模组的卡间高速互联方案主要分为私有和开放技术两大类,私有方案以英伟达NVLink为代表,开放技术方案以OAM和UBB为主。 •私有方案以英伟达NVLink为代表。2014年英伟达发布第一代NVLink,旨在实现GPU芯片间低延迟、高带宽的数据互联,相较于传统PCIe方案,CPU和GPU之间共享数据的速度大幅提升。 •传统PCIe方案:PCIe由Intel2001