证券分析师:李国盛A0230521080003ligs@swsresearch.com 杨海晏A0230518070003黄忠煌A0230519110001 林起贤A0230519060002刘洋A0230513050006 联系人:李国盛ligs@swsresearch.com 2024.3.30 网络之辩,英伟达Blackwell背后的光电演绎 GenAI系列之34 结论 •AI底层硬件向“大系统”演进。 •市场较多讨论英伟达GB200NVL系统的通信需求,光与铜“孰轻孰重”;我们认为光电混合是当前重要架构,未来更高速的光网络和芯片层面的光互联是长期方向。 •基于云厂商视角,我们预计GB200NVL系统是AI训练+推理在云端的较佳选择。而在英伟达B系列芯片更新的节点上,我们预计后续AI芯片迭代出货,对应的800G/1.6T光模块/光器件需求增长,硅光、液冷产业链投资机会也随之增加,看好海外大厂的高速网络需求的持续性。 原因及逻辑 •1)英伟达的GB200NVL72方案将72GPU高密度配置在一个机柜中,用于大模型训推,其中柜内组网以电气信号背板和铜线的NVLink网络为主,而机柜外扩容组网尤其千至万卡互联则需要2-3层交换机网络和光通信方案。前者是芯片互联增量,后者架构延续但整体升级。 •2)整体看,单一介质网络连接的性能,最大传输距离与最高带宽成反比,且综合考虑成本,同时考虑工程可行性。光电混合是当前出于成本考虑的重要架构,光网络和芯片层面的光互联是长期方向。 •3)硅光的演进方向明确。芯片算力性能暴增+训练/推理的参数需求,网络、访存性能亟需同步提升。电口瓶颈已至,芯片-板卡-设备间高速互联,光电子几乎是迭代唯一出路。当前放量临近、格局逐步明晰。 •4)AI硬件高密度、高功耗的路径下,液冷方案的渗透空间巨大。 有别于大众的认识 •市场担心英伟达GB200系统为代表的AI硬件演进,光通信需求降低。我们从GB200NVL72系统的拆解与理想化测算、光铜两种方案的应用场景、硅光产业的发展节奏等角度出发,认为光电混合是当前重要架构,未来更高速的光网络和芯片层面的光互联是长期方向。 •市场担心AI从训练到推理的过程,对硬件的需求降低。而AI大模型参数量的增速显著大于GPU内存与算力增速,高集成度+大内存+多GPU的系统更适配大模型训推,我们认为不管是800G/1.6T光模块/光器件需求,还是硅光、液冷的投资机会,均是后续重要的产业增量,看好高速网络等硬件需求的持续性。 相关标的:聚焦AI算力网络产业链 •光通信之中际旭创、新易盛、天孚通信、华工科技、光迅科技、源杰科技等。算力设备之紫光股份、锐捷网络、中兴通讯、烽火通信以及盛科通信等。液冷与IDC之英维克、飞荣达、润泽科技等。 风险提示: •1)芯片与系统的技术演进速度几乎是历史最快,同时也意味着演进方向可能多元化,科技大厂定制芯片的需求也说明了这一点。不同的系统架构和网络实践,可能会影响网络器件、设备等的长期需求。 •2)大模型算法的发展方向,例如参数量的变化、模型设计的变化等,也直接影响了底层的硬件架构设计,可能造成硬件需求的波动。 主要内容 1.Blackwell:英伟达新架构,变与不变 2.高速网络:量化测算,迭代提速 3.光通信:NVLink启示,硅光未来 4.液冷:技术奇点,算力同行 5.结论、相关标的与风险提示 4 时间2010201220142016 历史对比大 表 中文名费米开普勒麦克斯韦帕斯卡 英文名FermiKeplerMaxwellPascal 核心参数512CudaCores每SMX192FP32+64FP64每SM128CudaCores+32LD/ST+32SFU每SM64CudaCores+32DP 16SM15SMX16SM60SM 特点 首个完整GPU 首次GPUDirect SM单元精简(192到128) NVLink第一代 共享内存 性能 双向带宽160Gbps ECCGPU P10056SMHBM 关键核心单元CudaCoresCudaCoresCudaCoresCudaCores 制程 40/28nm 28nm 28nm 16nm 内存 12GB 24GB 16GB 带宽 288GB/s 288GB/s 732GB/S NVLink带宽 160GB/s 功率 235W 250W 250W 代表型号 Quadro7000 K80/K40M M5000 P100 2017(续表) 2018 2020 2022 2024 伏特 图灵 安培 赫伯 布莱克韦尔 Volta Turing Ampere Hopper Blackwell 每SM32FP64+64Int32+64FP32+8TensorCores 每SM64FP32+64Int32+8TensorCores每SM64FP32+64Int32+2FP64+4 TensorCores 每SM128FP32+64Int32+64FP64+4TensorCores - 80SM 102核心92SM 108SM 132SM 160SMfor20,480cores TensorCore TensorCore TensorCore TensorCore TensorCore NVLink第二代 NVLink第三代 NVLink第四代 NVLink第五代 TensorCores第一代 TensorCore第二代 TensorCore第三代 TensorCore第四代 TensorCore第五代 TransformerEngine第一代 TransformerEngine第二代 支持AI运算 RTCore第一代 RTCore第二代结构稀疏矩阵MIG1.0 结构稀疏矩阵MIG2.0 结构稀疏矩阵MIG2.0 12nm 12nm 7nm 4nm 4nm 16GB 16GB 80GB 80GB 192GB 900GB/s 320GB/s 1935GB/s 3.35TB/s 8TB/s 300GB/s 600GB/s 900GB/s 1.8TB/s 300W 70W*T4 400W 700W 1000Wmax V100 T4,RTX20 A100,A30 H100 B100、B200 注1:CUDA,CUDA(ComputeUnifiedDeviceArchitecture),是英伟达推出的运算平台。 注2:SM:streamingmultiprocessor。SP(streamingprocessor)是最基本的处理单元,也称CUDAcore。多个SP加上其他的一些资源组成一个SM大核。 注3:NVLink是英伟达(NVIDIA)开发并推出的一种总线及其通信协议。其采用点对点结构、串列传输,用于中央处理器(CPU)与图形处理器(GPU)之间的连接,也可用于多个图形处理器之间的相互连接。2016年4月发布帕斯卡架构,是NVLink第一代。 注4:SFU,特殊函数单元,Specialfunctionunits;LD/ST,读取单元,load/storeunits;SMX,Kepler中每个SMX中的Register较Fermi的SM放大一倍 注5:浮点精度对应不同AI训练要点。如A架构对稀疏矩阵支持利于CV分割、对象检测、通信编码。训/推任务常用FP16/BF16/TF32/INT8/FP16中的不同种类。资料来源:NvidiaDatasheet,申万宏源研究 Keytakeaways (一)性能跃升:内存、带宽、算力“三大件” •TSMC4NP工艺,2dies,20PFLOPS@FP8(Hopper2.5倍) •HBM3e192GB内存@8TBps带宽 (二)NVLink5th,拓展72GPU集群,C2C互联 •单GPU18xNVLink,带宽1800GBps(此前H100一代900GBps) 新变化 •最新NVLinkSwitch交换芯片,可576GPU互联(目前实际应用72GPU互联,此前仅8GPU) •Chiptochip,真正意义上实现跨“服务器”互联,达机柜级(尽管此前H100也有尝试) (三)算力呈现方式:板卡-服务器-机柜系统 新变化 •GB200NVL72系统,算力的“最小单元”从GPU扩大为机柜,以应对海量参数训推 (四)网络场景:c2c,b2b,m2m,交换机网卡 •光、电混合,成本与性能平衡,200GSerDes,集群带宽首次应用1.6Tbps光网络 (五)液冷:高密度,高功率 •GB200功率可达2700W,NVL72单机柜总功率190kW+,全液冷必备 新变化 主要内容 1.Blackwell:英伟达新架构,变与不变 2.高速网络:量化测算,迭代提速 3.光通信:NVLink启示,硅光未来 4.液冷:技术奇点,算力同行 5.结论、相关标的与风险提示 7 2024-2025年开始训练+推理密集的产业需求,市场对算力网络的路径与需求有分歧/预期差。 预计高速网络需求的持续性强! 200G网络 800G网络 400G网络 预计训练密集 1.6T网络 ………… ………… 预计训练+推理密集 英伟达A100H100H200B100X100 ×2@800G×2@1.6T X86训+推产品线 GH200 GH200NVL GB200 GB200NVL GX200 演进路线 GX200NVL ARM推产品线 ARM训+推产品线 AMD MI100 MI250 MI300A MI300X @800G@1.6T *APU@400G *GPU@400G ………… GoogleTPUv4TPUv5e @400G ………… TPUv5p 华为昇腾910/610昇腾910B @200G @800G ………… Grace–Blackwell架构 NVLink-1800GBps NVLink-1800GBps GB200板卡 GB200系统的构成: 2xBlackwellGPU+1xGraceCPU=1GB200 •GPU-CPU间由1组NVLink连接,带宽900GB •每个GPU对外分别有18条NVLink连接对应1800GB的带宽 C2CNVLink-900GBps GB200ComputeNode GB200NVL72(18Node) 在GB200NVL72中: 2张GB200板卡构成1个计算节点,1个机柜中有18个计算节点。 •相当于在1个机柜中,共计: •18x4=72GPUs •18x2=36CPUs NVLinkSwitch 8ports@1.8TBps ->14.4TBps =144x100GBps =72x1.6Tbps 1NVSwitch @7.2TBps 9台NVLinkSwitch •共18个NVSwitch芯片 •72个ports@1.8TBps 交换机和计算节点之间的连接方式和GH200类似,通过盲插高速背板(blindmatebackplane)互联,铜线为主。 1个GB200NVL72机柜类似于过去1台服务器的颗粒度: 正面 NVLinkSwitchx9 GB200NVL72(18Node)背面 + 盲插高速背板 (含液冷接头) blindmatebackplane 4GB200NVL72s CXNIC的OSFP接口 对应4个GPU BlueField-3的QSFP112接口 GB200使用InfiniBand组网的区域 RJ45Management ToRSwitches 据GTC2024公开的GB200NVL72系统的展示图,GB200机柜的正面的网络接口,包括: •ConnectX对应的InfiniBandOSFP接口(x4400Gb/800Gb) •BlueField-3DPU的QSFP112接口(x2) •RJ45的以太网接口 参考英伟达此前A100/H100/GH200等系统设计,我们预计 InfiniBa