GTC大会带来全新的Blackwell平台 北京时间2024年3月19日凌晨4:00,GTC大会如期而至,英伟达展示了全新的Blackwell平台系列产品,包括HGX B100服务器、NVLINK Switch、GB200 Superchip Computer Node、Quantum X800交换机和CX8网卡(InfiniBand方案)、ETH Spectrum X800交换机和BF3网卡(以太网方案)。 网络能力全面升级 从网络配置的角度,英伟达Blackwell平台提供了第五代NVLINK、第六代PCIE、单端口800Gbit/s的IB和以太网网卡、1.6T光模块需求。其中NVIDIA Quantum-X800 Q3400-RA是一台4U的IB交换机,对比上一代Quantum-9700交换机设备尺寸提升了一倍。Quantum-X800也是英伟达第一款使用200Gb/s-per-lane SerDes方案的交换机设备,通过72个OSPF 1.6T光模块提供144个800G端口。英伟达指出,基于Quantum-X800的高性能,两层胖树网路拓扑就可以连接10386个网络接口卡。 单个NVLink domain规模提升至576个GPU GB200 NVL72使用了定制化的Copper cable cartridge实现机柜内9个L1 NV Switch和18个计算节点的NVLink连接。英伟达介绍NVIDIA GB200 NVL72可以在一个NVLink domain内连接576个GPU。最大的变化是L1 NV Switch从服务器PCB板载芯片的形式调整为机柜内的9台交换机,连接能力提升至72个GPU,这就需要使用铜缆实现机柜内的NVLINK连接。而如何实现576个GPU连接,目前英伟达还没有给出具体的连接方案,但是鉴于目前最新的IB交换机能力,我们认为连接576个GPU需要L2 NV Switch。 投资建议:关注光通信、液冷、AIDC相关标的 NVIDIA Quantum-X800 Q3400-RA交换机明确了1.6T光模块需求,但是当前的DGX B200服务器、GB200 NVL72还是基于第七代IB网络,采用800G和400G光模块。我们认为NVIDIA Blackwell Platform产品交付初期会带来400G/800G光模块的需求,基于单通道200G技术的1.6T光模块最终会成为NVIDIA Blackwell Platform的主流配置。(1)我们建议关注1.6T光模块、光引擎、200GEML、硅光CW光源相关标的:天孚通信、中际旭创、联特科技、仕佳光子、源杰科技。(2)英伟达表示GB200会支持液冷,单服务器最大功耗超过14kW。建议关注液冷产业链,以及IDC行业积极布局液冷 、 大功率机柜 、AIDC的企业 。(3)全新的GB200 NVL72NVL将L1 NVLink domain连接能力提升至72个GPU,需要使用铜缆实现机柜内的NVLINK连接。建议关注英伟达Copper cable cartridge相关产业链。 风险提示:AI产业发展不及预期风险、需求不及预期风险,技术发展不及预期风险。 1.Blackwell平台网络配置分析 1.1Blackwell平台亮相GTC大会 北京时间2024年3月19日凌晨4:00,GTC大会如期而至,英伟达展示了全新的Blackwell平台系列产品,包括HGX B100服务器、NVLINK Switch、GB200 Superchip Computer Node、Quantum X800交换机和CX8网卡(InfiniBand方案)、ETHSpectrum X800交换机和BF3网卡(以太网方案)。 图表1:NVIDIA Blackwell Platform 从网络配置的角度,英伟达提供了第五代NVLINK、第六代PCIE、单端口800Gbit/s的IB和以太网网卡、1.6T光模块需求。从目前英伟达公布的产品介绍看,这些升级后的网络能力可能不会第一时间全部配置在最新的DGX B200服务器上,而是在后续的产品中逐步升级。从英伟达公布的产品说明材料看,DGX B200服务器配置8颗NVIDIA B200 Tensor Core GPUs,4个800G OSPF光模块,最大功耗为14.3kW。 图表2:第五代NVLink 图表3:DGX B200 1.2DGX GB200:NVLink domain提升至576 GPUs 采用DGX GB200系统的NVIDIA DGX SuperPOD专为训练和推理万亿参数生成式AI模型而构建。每个液冷机架配备36个NVIDIA GB200 Grace Blackwell超级芯片(36个NVIDIA Grace CPU和72个Blackwell GPU),与NVIDIANVLink连接为一体。多个机架与NVIDIA Quantum InfiniBand连接,可扩展到数万个GB200超级芯片。 GB200可以在单机柜内搭建包含36个或者72个GPU的NVLink domain。一个机柜内包含18个计算节点和9台L1 NVLink Switch。基于第五代NVLink技术,每个NVLink交换机可以提供144个100GB NVLink端口。通过机柜内的9个L1 NVLinkSwitch可以合计提供1296个100GB NVLink端口, 机柜内的每个Blackwell GPUs可以获得18个端口,合计1.8T的NVLink带宽。 图表4:GB200SuperchipComputer Node 图表5:High-speed NVLink Switch GB200 NVL72使用了一个定制化的Copper cable cartridge实现机柜内9个L1 NV Switch和18个计算节点的NVLink连接。英伟达介绍NVIDIA GB200 NVL72可以在一个NVLinkdomain内连接576个GPU。英伟达当前公布的GB200 NVL72配置了72个CX7网口(OSFP 400Gb/s InfiniBand),并没有使用最新的CX8网卡。 图表6:copper cable cartridge和NV Switch 图表7:576 GPUs in a single NVLink domain 1.3全新IB交换机,双层胖树支持万卡集群 NVIDIAQuantum-X800 Q3400-RA是一台4U的IB交换机 , 对比上一代Quantum-9700交换机设备尺寸提升了一倍。Quantum-X800也是英伟达第一款使用200Gb/s-per-lane SerDes方案的交换机设备,通过72个OSPF 1.6T光模块提供144个800G端口。英伟达指出,基于Quantum-X800的高性能,两层胖树网路拓扑就可以连接10386个网络接口卡。 GTC大会上,英伟达推出的Spectrum-X800 SN5600是一台51.2T端口容量的以太网交换机,可以配置64个OSPF 800G光模块。 图表8:Quantum-X800InfiniBand Platform 图表9:Spectrum-X800Ethernet Platform 2.光模块需求分析和投资建议: 2.1新平台依然需要800G和400G光模块 从GTC大会的介绍看,BLACKWELL平台会带来第五代NVLINK、第六代PCIE、第八代IB网络应用。但是在当前早期交付的产品中依然会采用800G和400G光模块。 其中DGX B200服务器配置通过4个800G OSPF光模块提供8个400G端口,这和DGX H100服务器的配置相同。 我们认为B200 GPU和800光模块的配置比例和H100 GPU保持一致。而GB200 NVL72需要配置72个OSPF 400G光模块,以便通过IB网络实现万卡集群的连接。 2.2新的IB网络带来1.6T光模块需求 NVIDIA Quantum-X800 Q3400-RA和CX8NIC则明确需要配置1.6T光模块。和上一代IB网络相比,主要的变化是Quantum-X800的端口能力提升至115.2T,可以通过两层胖树拓扑实现10386个网络接口卡的连接,万卡规模Blackwell GPU集群使用IB网络组网的成本得到优化。我们认为这会弱化以太网方案的价格优势,提升IB网络方案的竞争力。 2.3NVLink domain容量扩展带来新增的铜缆连接需求 通过第五代NVLINK从900GB提升至1800GB,单个NVLINK domain的GPU数量提升至576个。最大的变化是L1NV Switch从服务器PCB板载芯片的形式调整为机柜内的9台交换机,连接能力提升至72个GPU,需要使用铜缆实现机柜内的NVLINK连接。 图表10:GB200 NVL72背板上的线缆 而如何实现576个GPU连接,目前英伟达还没有给出具体的连接方案,但是鉴于目前最新的IB交换机能力,我们认为连接576个GPU需要L2NV Switch。最终的方案使用铜缆还是光模块,核心是铜缆的连接距离是否可以满足8个机柜的连接需求,低成本的铜缆连接方案会是优先选项。 3.投资建议:关注光通信、液冷、AIDC相关标的 我们认为NVIDIA Blackwell Platform在功耗、网络成本优化方便均有提升,这会为AI大模型训练提供更具性价比的算力资源,有助于AI产业发展,从而有助于AI算力网络需求的长期增长。 本次GTC大会发布NVIDIA Quantum-X800 Q3400-RA交换机明确了1.6T光模块需求,但是当前的DGX B200服务器、GB200 NVL72还是基于第七代IB网络,采用800G和400G光模块。我们认为NVIDIA Blackwell Platform产品交付初期会带来400G/800G光模块的需求。随着PCIE6的就绪,基于单通道200G技术的1.6T光模块最终会成为NVIDIA Blackwell Platform的主流配置。 我们建议关注1.6T光模块、光引擎、200GEML、硅光CW光源相关标的:天孚通信、中际旭创、联特科技、仕佳光子、源杰科技。 英伟达表示GB200会支持液冷,单服务器最大功耗超过14kW。建议关注液冷产业链,以及IDC行业积极布局液冷、大功率机柜、AIDC的企业。 全新的GB200 NVL72NVL将L1 NVLink domain连接能力提升至72个GPU,需要使用铜缆实现机柜内的NVLINK连接。建议关注英伟达Copper cable cartridge相关产业链。 4.风险提示 AI产业发展不及预期风险、需求不及预期风险,技术发展不及预期风险。