SuperPOD为英伟达专为AI设计的一站式AI数据中心解决方案,为业内典型案例。NVIDIA DGX SuperPOD作为英伟达针对AI发展而开创的一站式AI数据中心,拥有最为典型而高效的胖树拓扑架构,可以作为光模块与GPU数量关系测算过程的主要对象和测算结果的拓展依据。在NVIDIA SuperPOD的基础上,NVIDIA于2015年开始构建Selene,最终实现了全新的人工智能模型节点架构,制造出了运行速度排名全球第五的超级计算机。 999563347 光模块相比传统铜线优势明显,随着高速率场景占比提升有望逐步替代铜线。相比于传统的铜缆传输,光模块凭借自身截面半径小、易于弯折、连接范围广和易于布线等优势,在传输速率逐渐提升的当下有望进一步替代铜线,实现全光模块方案。 A100与H100、训练与推理场景中光模块种类及数量不尽相同。 1)在训练场景中,通过模型测算:在A100 GPU搭建的胖树拓扑结构下,200G光模块用量与GPU数量关系为6:1;在H100 GPU搭建的胖树拓扑结构下,400G光模块用量与GPU数量关系为1:1,800G光模块用量与GPU数量关系为2.5:1。2)在推理场景中,数据中心经流的东西向信息流量相比于南北向较少,对于带宽要求低于训练用数据中心,但是鉴于我们认为推理侧GPU用量高于训练侧GPU用量,推理场景对于光模块市场规模和需求增速也有一定的推动能力。 建议关注标的:中际旭创、新易盛、天孚通信、源杰科技、光迅科技、华工科技、博创科技、太辰光、仕佳光子、剑桥科技、光库科技、德科立。 风险提示:AIGC发展不及预期,云厂商数据中心建设不及预期,宏观环境变动风险,测算及假设不及预期风险。 1.NVIDIA SuperPOD:大模型AI专用架构,光模块测算典型案例 1.1.NVIDIA SuperPOD为高性能AI训练首选方案 NVIDIADGX SuperPOD™是一个AI数据中心基础设施平台,是英伟达专为AI设计的一站式AI数据中心解决方案。在DGX SuperPOD的助力下,业内优秀的加速基础设施可以做到兼具敏捷性与可扩展性能,从而应对极具挑战性的AI和高性能计算(HPC)工作负载,并获得行业认可的结果。 在NVIDIA SuperPOD的基础上,NVIDIA于2015年开始构建Selene,最终实现了全新的人工智能模型节点架构,制造出了运行速度排名全球第五的超级计算机。2015年NVIDIA的工程师们希望构建一个既能训练自动驾驶汽车,又能满足深度学习研究的AI模型,于是开始了第一个系统级设计,并于2016年成功研制出了基于NVIDIA Pascal GPU的SATURNV集群;2017年,他们关注到新的应用程序的开发推动了对多节点训练的需求,要求系统之间的高速通信和对高速存储的访问,这些需求需要多个GPU来进行处理,这意味着原有的工作负载的计算方式需要更新(如模型并行性)才能跟上应用程序的步伐。因此,团队制作了基于V100的更大的NVIDIA DGX-2系统集群,先试用32个DGX-2节点,随后是64个,最终形成了拥有96节点架构的DGX SuperPOD系统。在DGX SuperPOD系统的帮助下,NVIDIA的研发人员在在几周内就完成了大型安装团队通常需要几个月才能实现的目标。 表1:基于NVIDIA DGX SuperPOD的Selene基本情况 1.2.DGX SuperPOD架构:以SU为基的拓扑网络 1.2.1.SU:DGX SuperPOD基本构件 DGXSuperPOD的基本构件是SU,其由20个A100系统组成,在优化了性能和成本的同时仍然最大限度地减少了系统瓶颈与功能能耗,为复杂的工作内容以及较高的工作负载提供了结构上的支持。在正常的工作情境下,1个SU可以支持48个AI PFLOP。 图1.SU的基本物理架构 1.2.2.Fat-Tree拓扑:适合AI训练的拓扑结构 NVIDIADGX的计算结构设计最大限度地提高了AI工作性能,并在发生硬件故障时提供了一些冗余空间并最大限度地降低了成本。DGX A100 SuperPOD是一种模块化的系统,使用Mellanox HDR InfiniBand网络,实现了完整的“Fat-Tree”拓扑架构。 如下图所示,部署140个DGX A100的情况下,InfiniBand交换机在Fat-Tree拓扑中分为: (1)叶交换机:每个可扩展单元(SU)都连接8个叶交换机,SU中的DGX A100系统与每个叶交换机都有连接。这种拓扑结构是路径优化的,这意味着来自每个系统的所有相同HCA都连接到同一个叶交换机,而这种经过路径优化的组织对于最大限度地提高训练性能至关重要。 (2)脊交换机(SG):该层主要由十个QM8790交换机构成的SG用于优化结构,由于每个DGX A100系统有八个InfiniBand模块,所以需要八个SG。 (3)核心交换机(CG):该层主要运用由14个QM8790交换机构成的CG来连接各个SG,在这个具有140个节点的结构中共部署了2个CG。 胖树结构的架构在训练场景中最优的配置是上下行端口数一样,这种架构叫做无阻塞的网络。 根据NVIDIA官方图示,每个SU的第一个叶交换机连接到SG1中的每个交换机;每个SU的第二个叶交换机连接到SG2中的每个交换机,并以此类推。 在第二层架构搭建成功后,还需要排列第三层交换机来完成胖树拓扑。 (1)8个SG中每奇数个交换机连接CG1中的每一个交换机(奇数); (2)8给SG中每偶数个交换机连接CG2中的每一个交换机(偶数)。 对于140节点DGX SuperPOD,该结构通过叶级和主干级进行了路径优化——DGX A100系统上的每个InfiniBand HCA都连接到其自身拥有的胖树拓扑。 图2.DGXSuperPOD胖树拓扑结构(140台服务器) 1.3.光模块对标铜线:光纤传输优势明显,传统物料逐渐被取代 传统铜线劣势渐显。在通信行业发展初期,交换机与服务器市场刚刚打开,节点规模普遍较小,此时铜线是InfiniBand性能、可扩展性和面向未来的关键要素。以InfiniBand胖树结构为例,在节点规模较小、距离相对较近的情况下,部署时会更多地选择更具经济性的方案——使用铜线进行连接完成架构搭建;但随着节点规模逐步扩大,出现第二层、第三层的拓扑结构,需要更多的通路进行连接时,铜线在架构中的使用劣势逐渐体现:半径较粗、弯曲难度大、插接困难而且可能阻碍仓门开关,同时其最长长度也难以实现在胖树结构上方两层需要的跨机架互联。因此,随着服务器的一步步升级,铜线连接也逐步被拥有相对优势的光纤传输所取代。 图3.铜线方案1、4和12个平行通道的三种链路宽度 相比于传统铜线连接,光缆拥有如下优势: (1)更长的连接距离; (2)更小的截面半径。 光模块通过其连接距离长、截面半径短、易于弯曲和布线灵活等特点在InfiniBand网络架构中得到了普遍应用。随着光模块应用的普遍,原本常见的“半光模块化”胖树拓扑结构逐渐变成了“全光模块化”,即用光纤及二倍数量的光模块来替代原本拓扑结构第一层中使用的铜线,而第二层和第三层依旧使用不同速率的光模块。 2.DGX A100架构中光模块与GPU的数量关系——以SuperPOD为例 2.1.以140台A100服务器为例 DGX SuperPOD架构由于节点庞大,常常使用连接范围广、易于弯折、方便布线的光模块来连接自身拓扑架构中的DGX A100。根据A100的背板图,每台标准八卡A100有8个接口用于计算架构,2个接口用于存储架构,这样的布局最大限度地提升了速率而减少了能耗。 图4.DGX A100背板图 A100的主机配置是两路的CPU互联,服务器内部八颗GPU通过英伟达专有的NVLink的高速互联方式连接。而跨服务器互联是通过每一个交换器件搭配两路网卡和两路GPU,形成一一配对的关系。为了确保在高强度计算要求下数据的处理和转发速度,A100GPU通过网卡直接将处理的数据整合转发,而不通过CPU调用。在标准DGX A100架构中,1个A100共包含8块GPU芯片,在无阻塞的网络条件下理论上会有相应模型来计算架构中光模块与GPU的数量关系。 图5.DGX A100平面架构图 图6.A100架构使用的QM8790交换机为上下行共40个200G端口 计算架构:以140个DGX A100为例,他们均匀分配在7个SU中。根据图2,每个SU中的20个节点均与8个叶交换机相连,共需要56个叶交换机,同时需要1120个光缆(2240个光模块)用于连接;每个SU的第一个叶交换机连接到SG1中的每个交换机;每个SU的第二个叶交换机连接到SG2中的每个交换机并以此类推,共需要1124条光缆(2248个光模块)用于连接;8个SG中每奇(偶)数个交换机连接CG1(2)中的每一个交换机,共需要1120条光缆(2240个光模块)用于连接。 在SU数量不同的情况下,上述计算的适用程度也不尽相同,最后要看部署方自身选择,但是数量比基本不变。 表2:“全光模块化”架构下DGX SuperPOD计算架构光模块数量 存储架构:140台服务器情况下,DGX SuperPOD存储架构中同样包括7个SU,但不包含CG层,叶子组与SG的连接方式也与计算架构不同,但光模块的计算方式并无差别。 图7.DGX SuperPOD的存储架构(140台服务器) 存储架构中连接DGX A100系统的叶交换机会略微超额使用,通常为5:4;这种网络拓扑在性能和成本之间提供了良好的平衡。假设存储服务器每个SU需要八个端口,物料用量如表3。根据不同部署人的存储架构和存储性能要求,物料用量不尽相同。 表3:“全光模块化”架构下DGX SuperPOD存储架构光模块数量 2.2.以特定数据的案例分析A100架构中光模块与GPU的数量关系 假定共有250台A100,每台都具有8块GPU芯片,则在架构中总共存在2000张GPU芯片。 在“半光模块”方案下,第一层拓扑结构为用2000根铜线连接服务器及叶交换机。在“全光模块化”的方案应用下,第一层拓扑结构需要4000个光模块来替换“半光模块化”方案的2000根铜线;而第二层和第三层总共有四面架构需要使用光模块连接,因此上方两层共需要2000*4=8000个光模块。综上,在“全光模块化”的胖树拓扑架构中,光模块与GPU的比值可以估算为6:1,且由于A100中计算架构8个端口和存储架构2个端口均采取200G网卡,因此架构中普遍采用200G光模块。 通过以上模型得出估算:DGX A100架构中200G光模块与GPU的数量关系为6:1。 图8.DGX A100计算架构与存储架构采用200G接口 表4:“全光模块化”与“半光模块化”架构下A100中光模块与GPU数量关系 3.DGX H100架构中光模块与GPU的数量关系——以SuperPOD为例 DGX H100的背板拥有与A100不同数量和宽度的端口,其提供的连接也不尽相同。H100底板中间的计算端口使用4个OSFP双路接口来访问所有8个GPU,单通道升级为400G。此外,H100架构使用的QM9700交换机为上下行共32个800G端口(每个端口为两路400G,等同于64个400G端口)。 图9.DGX H100背板图 图10.H100架构使用的QM9700交换机为上下行共32个800G端口(等同于64个400G端口) 3.1.以特定数据的案例分析H100架构中光模块与GPU的数量关系 DGX H100架构中光模块与GPU的数量关系计算模型与A100架构中类似,但由于H100的端口数量有很大的扩展,交换机端口由40个变成了64个,并且为了避免固定尺寸的交换机出现散热困难和相互挤压,H100进行了端口缩并的设计,端口的宽度扩大到可以容纳两路模块进入,因此需要搭配800G的光模块(类似于两路400G光模块)。在计算方面对于4