2025年3月15日 英伟达GTC前瞻:关注CPO、液冷与电源产业链变化 中泰通信 首席分析师:陈宁玉(S0740517020004) Email:chennyztscomcn 分析师:杨雷(S0740524060005) Email:yanglei01ztscomcn 1 GTC2022:硬件为主,发布全新Hopper架构H100GPU及GraceCPU超级芯片,第四代NVLink和第三代NVSwitch技术、DGXH100SuperPOD等。 GTC2023:侧重软件及服务更新,发布及更新H100NVLGPU,PCIeH100等硬件,以及AI超级计算服务DGXCloud、光刻计算库CuLitho、GPU加速量子计算系统等。 GTC2024:发布新一代芯片平台Blackwell、AI平台NEMO、仿真平台Omniverse、AI(AIfoundry)服务、IssacRobotics平台等创新型产品服务。此外,GTC还为中国企业打造特别平台,探索中国市场新机遇。 GTC2025:3月1721日,于美国加州圣何塞及线上举行会议。本届GTC将举办1000多场会议,邀请2000位演讲嘉宾和近400家参展商,并展示NVIDIAAI和加速计算平台如何应对全球最严峻、最艰巨的挑战,包括气候研究、医疗健康、 网络安全、人形机器人、自动驾驶汽车等。预计从大语言模型和物理AI到云计算和科学发现,NVIDIA的全栈平台正在推动下一次工业革命。 图表:GTC2025精选主题 来源:英伟达官网,CSDN,证券研究所3 英伟达有望在GTC2025上公布GB300更具体细节方案。 算力与带宽性能方面:据SemiAnalysis预测,B300基于台积电4NP工艺打造,算力较B200提升约50,并搭载12HiHBM3E显存,提供288GB超大容量与8TBs带宽,满足千亿参数模型训练需求。GB300平台搭载了800GConnectX8网络接口卡,可在InfiniBand和以太网上提供双倍的扩展带宽。 功耗与散热挑战:GB300服务器整机功耗升至14kW(较GB200提升167),B300HGX功耗达12kW,液冷技术或成高密度计算场景标配。 模块化战略转型:英伟达或不再销售完整服务器机箱,转而向云厂商开放核心组件(SXMPuck模块、GraceCPU等),推动定制化AI算力解决方案。 下一代Rubin路线:尽管3nm工艺的RubinCPU与VeraGPU架构有望同步亮相,但受量产进度限制,本次大会或仅披露技术路线图,量产时间或延至2026年 图表:英伟达芯片路线图 来源:英伟达官网,算力之光,中泰证券研究所4 GB300或将再次提升算力性能。相较GB200,GB300单卡FP44位浮点数性能有望提升15倍;内存容量提升至288GB采用12层堆栈的HBM3E内存;网络功能从ConnectX7升级至ConnectX8,光模块也从800G提升至16T。功耗从GB200和B200的功耗12kW和1kW提升至GB300和B300的功耗14kW和12kW。 NVL288或将提及,关注PCB的PTFE方案进展。NVL288关注度较高,其或由4个NVL72组成。因NVL72功耗大散热要求较高,建议关注其散热相关技术产品是否继续升级;二是其系统组成较为复杂,尤其是CPU、GPU如何互联成为焦点。NVL288计算单元的PCB或将回归早期的UBBOAM结构,我们预计英伟达将采用PTFECCL背板解决方案等。 图表:英伟达GB300性能参数 图表:NVL288构想 性能参数描述 算力性能单卡FP44位浮点数性能较GB200提升了15 倍,3060petaflops 内存容量 从GB200的192GB大幅提升至288GB采用12层堆栈的HBM3E内存 网络功能从ConnectX7升级至ConnectX8,光模块也 从800G提升至16T 功耗与功率 从GB200和B200的功耗12kW和1kW提升至 GB300和B300的功耗14kW和12kW 来源:英伟达,CSDN,突破电气,CPAC印制电路,中泰证券研究所5 GB200即采用液冷技术,GB300功耗有望进一步提升。2024年英伟达发布GB200NVL72机柜,整机柜功率达到120kW,使用液冷技术方案。GB300的运行功耗预计为14kW,相比GB200的12kW有所增加。功耗的提升带来了更强大的性能,但也对散热系统提出了更高要求。GB300高散热功率问题仍然是关键挑战。 GB300液冷技术预计在冷板结构上有更新。GB200液冷技术以一个Computetray(计算托盘)为例,其冷板配置采用“一进一出”的设计,每个大冷板覆盖多个芯片,大冷板通过一对快接头与液冷系统相连;而后多个冷板回路经由manifold(分流器)汇集成一个整体回路,最终连接至机箱外壳。预计GB300液冷主要变化在于冷板结构的革新:为每个芯片配备独立的“一进一出”液冷板。其他配置则沿用GB200。未来,Rubin架构或将转向浸没式液冷设计,建议关注。 图表:英伟达液冷方案图表:液冷散热模组四大组件 来源:英伟达,技术前沿,中泰证券研究所6 GB200冷板配置信息:GB200NV72有18个computetray,每个computetray覆盖6个芯片(4个GPU2个CPU)。在GB200液冷板配置中,一个computetray覆盖6个芯片散热,配2个冷板,每个冷板配快充头进出各一对,则computetray侧为4对。computetray与manifold连接的两对,则(computetraymanifold)总计需要6对快接头。 GB300冷板配置预测:GB300或将不再采用大面积冷板覆盖多个芯片的模式,转而为每个芯片配备独立的液冷板。新的计算方式则为:一个computetray包括6个芯片,每个芯片均需要散热,进出各一对,则computetray侧为12对。computetray与manifold连接的两对,则 (computetraymanifold)总计需要14对快接头。 computetray manifold 小计 Swtichtray(液冷) 汇总 提升比例 GB200NV72 18个computetray,配2个大冷板,每个冷板进出各1对;以上共计4对 每个Computetray连接manifold进出各1对,共配2对 18(42)108 9个swtichtray,进出各1对,共2对 10818126对 11429 GB300NV72 18个computetray,每个含芯片6个(4个GPU2个CPU),每个芯片2对,共计12对 每个Computetray连接manifold进出各1对,共配2对 18(122)252 9个swtichtray,进出各1对,共2对 25218270对 图表:GB300参考板设计预测图表:GB300液冷方案快接头测算 来源:英伟达,SemiAnalysis,技术前沿,中泰证券研究所7 Quantum3400X800量产节奏预期:该款产品为Infiniband(IB)交换机。目前,该款传统统可插拔光模块版本已进入量产阶段。此外,隐藏CPO版本将于2025年第三季度开始量产。 2025年CPO有望加速:台积电与博通在3nm工艺上的CPO关键技术微环调制器MRM调试成功,预计2025年初可以交付样品,并有望在下半年实现16Tbps光电器件的量产。此外包括英特尔、Marvell、光迅等厂商均有不同进展。总体来看,头部大厂将CPO量产时间定在2025年,或许今年能落地相关产品于数据中心。 图表:英伟达产品演进路线图 图表:各家厂商CPO相关进展 厂商描述 来源:英伟达,电子发烧友,中泰证券研究所 博通 Marvell 已展示使用CPO技术的512T交换机系统,其中包含8个64T的FR4光引擎。单个光引擎中包含64通道的PIC与EIC芯片,driverTIA采用CMOS工艺,单通道信号速率为100Gbps。计划2025年第二季度推出首款CPO交换机。 英特尔 在2024年OFC大会上展示了其最新的光学计算互连OCI方案进展,OCI芯粒集成了硅光子集成电路,包括片上激光器和光放大器、与电子集成电路,支持高达4Tbps的双向数据的传输速率,可与第五代PCIe兼容。 光迅在2023年发布CPOELS自研光源模块,可以支持32TCPO 在2024OFC大会上推出其最新64T3D封装硅光引擎,包含32条电光混合通道,单通道的信号速率为200Gbps。单个通道还集成了驱动器、调制器、TIA、光电探测器、MUX和DEMUX,其中TIA和驱动器采用了3D封装集成技术。 8 CPO版本的Quantum3400X800IB交换机的外观:这是一款4U高度的交换机,总共有6排24列,每个配置MPO接线口(MultifiberPushOn,一种标准化的光纤连接器),可支持800G,总计144个800G端口。 外观上看,Quantum3400X800为4U交换机,设备左侧有18路外置可插拔光源模组,右侧则有调试接口、管理接口、串口以及LED指示灯等功能部件。其设计为纯液冷系统,电源位于后端中央位置,两侧则分别为进冷水管和出热水管(图二蓝色部分为进冷水接口,红色部分为出热水接口)。 预期三:CPO版本Quantum3400X800结构 图表:Quantum3400X800外观 图表:Quantum3400液冷水管外观 来源:电子发烧友,未来创造者,中泰证券研究所9 内部看,Quantum3400X800配置4颗288T交换芯片,交换能力为1152T。4颗交换芯片互相不通信,采用多平面技术(multiplanetopology)。外接信号布局为六排,每排配备24个MPO接线口,则共计144个800G接口;最新的Q3400可支持液冷。 如上所述,从外进入交换芯片数据量为1448001152T,刚好为4个交换芯片处理速率。因4个交换芯片互相不通信,则每个芯片接收通 道量为144436个,又一个光引擎可处理4个800G通道,则单芯片共计需要9个光引擎,单交换机配备需要4936个光引擎。 图表:Quantum3400X800参数 图表:Quantum3400X800内部需要MPO及光引擎数量 排列 数量 速率 换算处理能力 MPO 24排6列 144 800G 144800G1152T 光引擎 4交换芯片 4936 处理4个 800G 3648001152T 来源:英伟达,迪天嘉业,未来创造者,中泰证券研究所10 预期四:800VHVDC有望采用 HVDC较UPS的供电结构简单,稳定性更强:传统UPS的原理为输入交流电流,后经ACDC整流、DCAC逆变后输出交流电流。而高压直流UPS输入交流电流,经ACDC整流后输出直流电流,取消了传统UPS的DCAC逆变过程。在负载侧,传统UPS供电的负载服务器电源需经过ACD转换为直流电流供负载使用;而高压直流UPS供电的负载服务器取消了该环节。因而大大提高了供电系统的效率,从而降低供电系统的发热损耗,通过HVDC供电方式的应用可以比采用UPS供电节约电能1020。 HVDC运营成本较传统UPS下降明显:通过比较传统11冗余120kvAUPS和2套50KW高压直流电源运营成本发现。每年运营成本HVDC比UPS要低1395,年节省2691万元。近日,台达电于其官网推出72kW电源架适配800V高压输出,效率高达98,适用于Rubin超大功率服务器机柜。未来AIDC建设中,800VHVDC有望得到更广泛采用。 图表:传统UPS和HVDC供电结构对比图表:传统型UPS和HVDC电源运营成本分析对比 项目 传统11冗余120kvAUPS100KW 2套50kw高压直流电源(100kw 容量Kw 100 100 效率 82 95 年运营成本 主机能耗 10683 9221 输出配