Blackwell GPU产品投产,Rubin将是下一代平台:英伟达推出Blackwell架构GPU。GB200超级芯片将两个B200 GPU与一个基于Arm的Grace CPU配对; 将两个GB200超级芯片合并安装到一块主板上组成一个Blackwell计算节点; 将18个Blackwell计算节点组合在一起形成新一代计算单元GB200 NVL72。 GB200 NVL72训练和推理性能相比于等同数量的H100 GPU表现提升4倍和30倍。Blackwell架构的GPU产品投产,得益于客户对AI/加速计算计划的持续支出 ,以及对其Hopper H100和新H200 GPU平台 (Blackwell GB200/B200/B100)的强劲需求,将成为2024、2025年英伟达的重要营收驱动。英伟达FY25Q1法说会上预计Blackwell相关新品在2024Q2初生产出货,2024Q3加速出货,2024Q4实现大规模出货。下一代Rubin GPU(8S HBM4)和相应的平台将于2026年上市,随后于2027年推出Rubin Ultra GPU(12S HBM4)版本。 算力需求持续高涨,英伟达FY25 Q2指引超预期:英伟达FY25 Q1营收创新高,实现收入260亿美元,同比增长262%,环比增长18%,远高于公司240亿美元的预期;实现Non-GAAP净利润152亿美元,同比增长462%,环比增长19%。FY25 Q1数据中心业务营收同比增长427%至226亿美元,其中计算业务收入为194亿美元,同比增长超过5倍,环比增长29%,增长的主要来源为训练推理和生成式人工智能等带动下Hopper GPU销售的增长。英伟达指引FY25Q2营收280亿美元(正负2%),实现GAAP和Non-GAAP毛利率74.8%和75.5%(正负0.5%);GAAP和Non-GAAP口径下营业费用分别是40亿美元和28亿美元。 H20在2024年或将为英伟达贡献较大收入,英伟达定制全新"特供版"B20芯片:(1)H20是英伟达基于H100专门面向中国市场推出的三款“阉割版”GPU当中性能最强的,可以提供296 TOPS(INT8)、148 TFLOPS(FP16)、96 GB HBM3内存和4.0 TB/s内存带宽。作为H800被禁后的替代产品,H20综合算力性能仅为H100的20%左右,价格只有H100的一半。(2)美国政府在半导体领域的对华出口管制政策不断升级,可能会阻止英伟达出售其面向中国的 HGX-H20 AI GPU。英伟达正在开发面向中国市场的基于全新Blackwell GPU架构的AI芯片版本,型号暂定为“B20”,该版本将符合美国之前的出口管制政策。英伟达B20性能相对于B200将会大幅削减,不过其HBM的容量有望进一步提升,这对于AI训练和推理助力大。预计B20将于2024年晚些时候投入生产。(3)据市场研究机构SemiAnalysis的最新预测数据显示,英伟达2024年将向中国市场销售超过100万颗新的NVIDIA H20加速芯片,预计每颗芯片价格在12,000-13,000美元,这预计将为英伟达带来超过120亿美元收入。 英伟达供应链多家公司2024年上半年业绩预告增长:英伟达供应链中际旭创、沪电股份、新易盛、生益科技、沃尔核材等多家公司发布2024年上半年业绩预告。取业绩预告中值计算,2024Q2中际旭创、沪电股份、新易盛、生益科技、沃尔核材这5家公司合计实现归母净利润32.5亿元,同比增长144%。 投资建议:看好英伟达产业链,重点关注光模块、铜连接和PCB方向,建议关注中际旭创、新易盛、天孚通信、胜宏科技、沃尔核材、工业富联、浪潮信息、沪电股份等。 风险提示:下游需求不及预期、AI技术发展不及预期、中美贸易摩擦反复风险。 1、Blackwell和Rubin重磅发布 1.1Blackwell将是2024-2025年重要增量,NVL36和 NVL72将成为英伟达重要收入构成 2024年3月19日英伟达GTC大会上,黄仁勋在发布Blackwell产品。 图1:英伟达 图2: Blackwell架构拥有2080亿个晶体管。两块晶片之间通过一条细线贴合,组成 B200 GPU(Largest Die Possible×2= B200),也叫做Blackwell GPU。这是 两块晶片首次以这样的方式进行贴合并组成一块晶片。晶片之间进行带宽互联, 数据传输速率达每秒10TB。2080亿个晶体管几乎同时访问与芯片连接的内存, 因此Blackwell芯片不存在内存局限和缓存的问题。 图3:Blackwell GPU 将两个B200 GPU与一个基于Arm的Grace CPU进行配对,再通过900GB/s 的超低功耗NVLink连接在一起,可以组成GB200超级芯片。 图4:GB200超级芯片 Blackwell的顶部有NVLink,底部有PCI Express。 图5:GB200超级芯片 图6:GB200超级芯片 将两个GB200超级芯片合并安装到一块主板上,可以组成一个Blackwell计算 节点。Blackwell Compute Node也叫Compute Tray。 图7:Blackwell Compute Node 把18个Blackwell计算节点(Compute Tray)组合在一起,可以形成新一代 计算单元:GB200 NVL72(Blackwell Node×18 + NVLink Switch = GB200 NVL72)。 图8:GB200 NVL72 GB200 NVL72中一共包含了9个NVLink交换节点(Switch Tray),每个交换 节点中配置了2颗NVLink Switch芯片,向外提供14.4TB/s的聚合带宽。 图9:NVLink Switch Chip 图10:NVIDIA GB200 Internal NVLink Switch 如果要训练一个1.8万亿参数量的GPT模型,需要8000张Hopper GPU,消耗 15兆瓦的电力,连续跑上90天。但如果使用Blackwell GPU,只需要2000张, 同样跑90天只要消耗四分之一的电力。除了训练之外,生成Token的成本也会 随之降低。GB200 NVL72训练和推理性能相比于等同数量的H100 GPU表现提 升4倍和30倍。 图11:Blackwell和Hopper性能对比 图12:GB200系统能耗情况 在使用FP4精度来推理时,Blackwell架构的性能相比Hopper架构提升了30 倍。未来大模型问答推理的latency可能会接近于0,这对于无人驾驶等场景至 关重要。 图13:GPT4模型的训练时长变化 此外,把若干GB200 NVL72计算单元用Quantum InfiniBand交换机连接起来, 再配合上散热系统,可以组成新一代DGX GB200 SuperPod集群。DGX GB200 SuperPod是一个包含32000块GPU的分布式超算集群,采用新型高效液冷机 架,可在FP4精度下提供11.5 Exaflops算力和240TB高速内存。 Blackwell架构的GPU产品投产,将成为英伟达2024、2025年的重要营收驱 动。得益于客户对AI/加速计算计划的持续支出,以及对其Hopper H100和新 H200 GPU平台(Blackwell GB200/B200/B100)的强劲需求,Blackwell架构 将成为英伟达2024、2025年的重要营收驱动。英伟达FY25Q1法说会上预计 Blackwell相关新品在2024Q2初生产出货,2024Q3加速出货,2024Q4实现 大规模出货。 图14:DGX GB200 SuperPod 1.2Rubin将是Blackwell之后的下一代平台 Blackwell Ultra将于2025年发布,下一代平台名为Rubin。英伟达以每年一次 的更新节奏,构建覆盖整个数据中心规模的解决方案,将这些解决方案分解为各 个部件,以每年一次的频率向全球客户推出。英伟达采用最先进的工艺技术、封 测技术、内存技术和光学技术,推动产品性能的不断提升。英伟达的计算机平台 能够向后兼容,且架构上与已有软件完美契合时,产品的上市速度将显著提升。 因此Blackwell平台能够充分利用已构建的软件生态基础,实现较高的市场响应 速度。Blackwell Ultra将会确保所有产品都保持100%的架构兼容性。 图15:英伟达三代平台架构 英伟达计划发布一个增强Blackwell Ultra GPU(8S HBM3e 12H),预计将于 2025年推出。下一代Rubin GPU(8S HBM4)和相应的平台将于2026年上市, 随后于2027年推出Rubin Ultra GPU(12S HBM4)版本。 图16:Blackwell Ultra GPU 2、英伟达:算力需求持续高涨,FY2025Q2指引超预期 英伟达FY25 Q1(截至2024年4月28日)营收创新高,实现收入260亿美 元,同比增长262%,环比增长18%,远高于公司240亿美元的预期。 图17:英伟达FY22 Q2-FY25Q1营业收入及同环比增速 英伟达FY25 Q1实现Non-GAAP净利润152亿美元,同比增长462%,环比 增长19%。 图18:英伟达FY22 Q2-FY25Q1 Non-GAAP净利润及同环比增速 英伟达FY25 Q1数据中心业务营收同比增长427%至226亿美元。其中计算 业务收入为194亿美元,同比增长超过5倍,环比增长29%,增长的主要来 源为训练推理和生成式人工智能等带动下Hopper GPU销售的增长。网络业 务收入为32亿美元,同比增长超过3倍,环比下降5%。目前英伟达 Blackwell已全力投入生产,预计Hopper和Blackwell需求强劲。此外,英 伟达开始交付针对人工智能优化的Spectrum-X以太网解决方案,预计一年 内将会成为价值数十亿美元的产品线。 图19:英伟达数据中心业务FY24 Q1-FY25Q1营业收入(单位:百万美元) 英伟达FY25 Q1游戏业务实现营收26.47亿美元,同比增长18%,环比下滑 8%。GeForce RTX 40 SUPER GPU市场反响热烈。GeForce RTX GPU能为 游戏玩家、创作者和人工智能爱好者在PC上运行人工智能应用程序提供更好 的性能。NVIDIA和微软宣布对Windows进行AI性能优化,NVIDIA GeForce RTX AI PC上运行LLM的速度有望提高3倍。 图20:英伟达游戏业务FY24 Q1-FY25Q1营业收入(单位:百万美元) 英伟达FY25 Q2指引超预期。英伟达指引FY25 Q2营收280亿美元(正负 2%),实现GAAP和Non-GAAP毛利率74.8%和75.5%(正负0.5%);GAAP 和Non-GAAP口径下营业费用分别是40亿美元和28亿美元。 图21:英伟达FY25 Q2指引 3、H20面临禁售,英伟达定制全新"特供版"B20芯片 H20是英伟达基于H100专门面向中国市场推出的三款“阉割版”GPU 当中性 能最强的,可以提供296 TOPS(INT8)、148 TFLOPS(FP16)、96 GB HBM3 内存和4.0 TB/s内存带宽。HGX H20在组网应用中优于国产AI处理器。据市 场研究机构SemiAnalysis的最新预测数据显示,英伟达24年将向中国市场运 送超过100万颗新的NVIDIA H20加速芯片,预计每颗芯片价格在12,000美元 至13,000美元之间,这预计将为英伟达带来超过120亿美元的收入。 表1:HGX H20、L20 PCIe和L