您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[上海证券]:人工智能行业跟踪报告:英伟达发布新一代GPU架构,NVLink连接技术迭代升级 - 发现报告
当前位置:首页/行业研究/报告详情/

人工智能行业跟踪报告:英伟达发布新一代GPU架构,NVLink连接技术迭代升级

信息技术2024-03-29刘京昭上海证券J***
人工智能行业跟踪报告:英伟达发布新一代GPU架构,NVLink连接技术迭代升级

证英伟达发布新一代GPU架构,NVLink 研 券连接技术迭代升级 究 报——人工智能行业跟踪报告 告增持(维持)主要观点 事件描述 行业:计算机 2024年3月19日,英伟达正式发布Blackwell架构的GPUB200、计算 日期: 2024年03月29日 平台HGXB200以及新一代NVLink5.0连接技术。同时,英伟达基于B200和GraceCPU推出了超级芯片GB200,以及由72张GB200组成 分析师:刘京昭 SAC编号:S0870523040005 最近一年行业指数与沪深300比较 计算机沪深300 % % 01/2303/2306/2308/2310/2301/24 35% 28% 21% 14% 7 0 -7% 事-14% 件-21% 点 评 的DGXGB200NVL72超级计算机。 值得关注的是,新一代NVLink连接技术支持单块Blackwell架构的GPU实现1.8TB/s的传输带宽。根据SemiAnalysis的测算,鉴于DGXGB200NVL72拥有72个OSFP端口,每个端口对应于1个400G或 800G光模块,随着GB200数量的增加,网络拓扑结构发生变化,最终GB200对应于800G光模块的数量关系将介于1:2.5到1:3.5之间。 分析与判断我们认为: (1)以DGXGB200NVL72为代表的超级计算机,在内部节点间使用铜缆连接,主要是出于降低功耗的考虑,跨机柜连接短期内仍依赖于光收发器。 (2)从生成式AI模型训练需求角度看,跨机柜连接仍为未来主流技术方案,因此数通市场800G光模块需求具备可持续性。 (3)GB200在推理性能上持续优化升级,能够进一步降低生成式AI模型在云侧的推理成本,有助于生成式AI应用在C端落地。 投资建议 建议关注: 中际旭创:中高端数通市场龙头,2022年与II-VI并列光模块业务营收全球第一。根据iFinD机构一致预期,截至2024年3月25日,公司2024年的预测PE为32倍,位于近五年的93%分位。 天孚通信:光器件整体解决方案提供商。根据iFinD机构一致预期,截至2024年3月25日,公司2024年的预测PE为53倍,位于近五年的99%分位。 新易盛:光模块领域龙头,成本管控优秀,具备切入增量云计算/AI客户的能力。根据iFinD机构一致预期,截至2024年3月25日,公司2024年的预测PE为42倍,位于近五年的98%分位。 风险提示 下游需求不及预期;人工智能技术落地和商业化不及预期;产业政策转变;宏观经济不及预期等。 目录 1英伟达推出Blackwell架构,生成式AI训练、推理再加速3 2风险提示7 图 图1:HGXB200计算平台在生成式AI推理场景下实时吞吐量大幅上升3 图2:HGXB200计算平台在生成式AI模型训练场景下训练速率提升明显3 图3:GB200NVL72在推理场景下实时吞吐量较HGX100 提升更明显4 图4:GB200NVL72在生成式AI模型训练场景下性能有所提升4 图5:GB200由铜缆连接GB200节点机架与NVSwitch机架4 图6:GB200使用第五代NVLink连接技术增强GPU卡间互联能力5 图7:GB200和800G光模块的数量关系与H100类似5 表 表1:Blackwell架构GPU更注重FP8和FP4浮点运算3 表2:人工智能领域相关公司对比表6 1英伟达推出Blackwell架构,生成式AI训练、推理再加速 2024年3月19日,英伟达正式发布Blackwell架构的GPUB200、计算平台HGXB200以及新一代NVLink5.0连接技术。同时,英伟达基于B200和GraceCPU推出了超级芯片GB200,以及由72张GB200组成的DGXGB200NVL72超级计算机。 图1:HGXB200计算平台在生成式AI推理场景下实时吞吐量大幅上升 图2:HGXB200计算平台在生成式AI模型训练场景下训练速率提升明显 资料来源:NVIDIA,上海证券研究所资料来源:NVIDIA,上海证券研究所 B200采用台积电的4纳米工艺蚀刻而成,通过NVLink5.0将两个独立制造的裸晶(Die)连接整合,内部共有2080亿个晶体管。单个BlackwellDie的浮点运算能力相较于HopperDie提高近25%,总性能提升2.5倍,在处理FP4精度的浮点运算时,性能还能进一步提升至H100的5倍。 表1:Blackwell架构GPU更注重FP8和FP4浮点运算 技术参数 HGXB200 HGXB100 HGXH200 HGXH100 GPU数量 8-GPU 8-GPU 8-GPU 8-GPU FP32吞吐量(FLOPS) 18P 14P 8P 8P FP16吞吐量(FLOPS) 36P 28P 16P 16P FP8吞吐量(FLOPS) 72P 56P 32P 32P FP4吞吐量(FLOPS) 144P 112P -- -- 显存 1.5TB 1.5TB 1.1TB 640GB NVLink版本 第五代 第五代 第四代 第四代 NVSwitch版本 第四代 第四代 第三代 第三代 NVSwitchGPU-to-GPU带宽 1.8TB/s 1.8TB/s 900GB/s 900GB/s 总带宽 14.4TB/s 14.4TB/s 7.2TB/s 7.2TB/s 资料来源:NVIDIA,上海证券研究所 DGXGB200NVL72超级计算机包含18个GB200节点机架和9个NVSwitch节点机架。每个GB200节点搭配1个GraceCPU和2个GB200GPU,共计36个GraceCPU和72个GB200GPU。在生成式AI训练场景下,GB200NVL72可支持720PFLOPS的FP8吞吐量;在推理场景下,GB200NVL72可支持1.44EFLOPS的FP4吞吐量。 图3:GB200NVL72在推理场景下实时吞吐量较 HGX100提升更明显 图4:GB200NVL72在生成式AI模型训练场景下性能有所提升 资料来源:NVIDIA,上海证券研究所资料来源:NVIDIA,上海证券研究所 DGXGB200NVL72使用水冷散热,在功耗方面,由于使用了5000条左右总长度2英里的NVLink铜缆,在内部的GB200节点和NVSwitch节点间通信不再依赖光收发器,从而降低近 20KW的功耗。 图5:GB200由铜缆连接GB200节点机架与NVSwitch机架 资料来源:36氪,上海证券研究所 DGXGB200NVL72使用第五代NVLink实现互联,NVLink多节点all-to-all带宽达到130TB/s。新一代的DGXSuperPOD可由8台或8台以上的DGXGB200超级计算机构成,用户可通过NVLink连接8台DGXGB200超级计算机的576块GB200GPU,从而进一步扩增集群的共享显存,适应新一代生成式AI模型的训练需求。据英伟达介绍,此前需要8000块H100GPU使用90天时间对GPT-MoE-1.8T进行训练,如今只需要2000块GB200GPU进行训练,且能耗为使用H100训练的四分之一。 图6:GB200使用第五代NVLink连接技术增强GPU卡间互联能力 资料来源:NVIDIA,上海证券研究所 值得关注的是,第五代NVLink连接技术支持单块Blackwell架构的GPU实现1.8TB/s的双向带宽。根据SemiAnalysis的测算,鉴于DGXGB200NVL72拥有72个OSFP端口,每个端口对应于1个400G或800G光模块,随着GB200数量的增加,网络拓扑结构发生变化,最终GB200对应于800G光模块的数量关系将介于1:2.5到1:3.5之间。 图7:GB200和800G光模块的数量关系与H100类似 资料来源:SemiAnalysis,上海证券研究所 我们认为:(1)以DGXGB200NVL72为代表的超级计算机,在内部节点间使用铜缆连接,主要是出于降低功耗的考虑,跨机柜连接短期内仍依赖于光收发器。(2)从生成式AI模型训练需求角度看,跨机柜连接仍为未来主流技术方案,因此数通市场800G光模块需求具备可持续性。(3)GB200在推理性能上持续优化升级,能够进一步降低生成式AI模型在云侧的推理成本,有助于生成式AI应用在C端落地。 表2:人工智能领域相关公司对比表 所属板块 股票代码 股票简称 22营业 收入 22归母 净利润 24E营业 收入 24E归母 净利润 24E 估值 近五年PE分位数(%) 688041.SH 海光信息 51.25 8.04 83.74 16.76 111 77 688256.SH 寒武纪 7.29 -12.57 15.38 -5.98 -- -- 算力 300474.SZ 景嘉微 11.54 2.89 12.24 2.67 145 92 688521.SH 芯原股份 26.79 0.74 30.96 0.29 368 -- 603019.SH 中科曙光 130.08 15.44 169.39 24.61 31 49 PCB 002463.SZ 沪电股份 83.36 13.62 110.48 19.95 29 93 300308.SZ 中际旭创 96.42 12.24 239.02 40.72 32 93 光模块/光器件 300502.SZ 新易盛 33.11 9.04 52.86 13.07 42 98 300394.SZ 天孚通信 11.96 4.03 32.72 11.63 53 99 光芯片 688498.SH 源杰科技 2.83 1.00 2.95 1.00 130 66 液冷 872808.BJ 002837.SZ 曙光数创 英维克 5.18 29.23 1.172.80 8.57 54.01 1.985.26 5134 8951 301165.SZ 锐捷网络 113.26 5.50 151.68 7.89 29 94 603118.SH 共进股份 109.74 2.27 114.13 5.03 16 96 301191.SZ 菲菱科思 23.52 1.95 33.04 2.91 23 82 服务器/交 601138.SH 工业富联 5118.50 200.73 5442.48 252.14 19 97 换机 000938.SZ 紫光股份 740.58 21.58 904.19 27.46 22 37 000628.SZ 高新发展 65.71 1.99 -- -- -- 99 600100.SH 同方股份 237.61 -7.72 -- -- -- -- 000034.SZ 神州数码 1158.80 10.04 1316.69 14.60 15 44 机器视觉 002920.SZ002415.SZ002236.SZ 688003.SH 德赛西威海康威视大华股份天准科技 149.33831.66305.65 15.89 11.84 128.37 23.24 1.52 265.02989.19374.09 24.38 21.55 168.70 43.83 2.74 29181426 6287412 300802.SZ 矩子科技 6.84 1.29 -- -- -- 16 300418.SZ 昆仑万维 47.36 11.53 55.89 9.64 50 93 688111.SH 金山办公 38.85 11.18 58.47 16.90 86 29 AI+应用 002230.SZ 科大讯飞 188.20 5.61 256.05 13.18 87 97 600570.SH 恒生电子 65.02 10.91 90.87 21.05 23 2 300033.SZ 同花顺 35.59 16.91 40.43 16.90 44 58 600845.SH 宝信软件 131.50 21.86 195.57