光模块&液冷专家交流纪要 问:GB200在局域网连接中的光模块配比关系如何变化? 答:无论是否考虑跨机柜互联,每个计算节点内 部的GPU和1.6T光模块配比关系保持不变,如采用三层交换机,则GPU芯片和1.6T光模块数量比例为1比3。但在连接到数据中心局域网时,具体数量关系仍取决于交换机构建层数,即GPU芯片和1.6T光模块数量比例为1:2或1:3。 问:在GB200整体系统互联方案中,光模块的占比及增长情况如何? 答:光模块在GB200系统中的占比至少不会出现比例关系下降,而是稳中有增。 光模块&液冷专家交流纪要 问:GB200在局域网连接中的光模块配比关系如何变化? 答:无论是否考虑跨机柜互联,每个计算节点内 部的GPU和1.6T光模块配比关系保持不变,如采用三层交换机,则GPU芯片和1.6T光模块数量比例为1比3。但在连接到数据中心局域网时,具体数量关系仍取决于交换机构建层数,即GPU芯片和1.6T光模块数量比例为1:2或1:3。 问:在GB200整体系统互联方案中,光模块的占比及增长情况如何? 答:光模块在GB200系统中的占比至少不会出现比例关系下降,而是稳中有增。其增长主要来自 于跨机柜互联需求,即在最终GB200出货中其占比的重要性。 问:光模块在GB200系统中的应用场景及潜在增长点是什么? 答:GB200系统中,光模块不仅解决了单机柜内高集成度方案的价值量和能力提升问题,而且随 着GB200性能、功耗和性价比相较于前代产品有所改进,预期光模块配比会随着GB200出货量占 比提升而增长。如果GB200系列中BlackWellGPU的出货量占比提升,那么对光连接和铜连接来讲都是一个增量利好。 问:1.6T生态布局及交换机商用部署情况如何? 答:Q3400最新一代交换机明确提及72个1.6T端口,意味着已开始向1.6T端口上量。同时,预计Context的X800交换机和以太网的spectrumX800交换机明年通过生态合作伙伴开始交付,英伟达1.6T交换机有望在明年开启整体交付。技术层面,光口和电口的1.6T能力均已初步成熟。 问:1.6T网络加速落地对光模块和交换机产业的影响是什么?对于光模块和交换机产业链的投资 观点是什么? 答:率先参与到全球1.6T数据中心网络供应的光模块和交换机等硬件龙头企业有望率先受益。预 计2025年1.6T网络有望实现加速落地。当前最新观点认为,海外光模块产业链的头部个股在年报和一季报业绩确定性上明显优于成长性资产,建 议关注这些个股的逢低配置机会。尽管市场并未 显著上调明年光模块需求量和GB200主要方案中1.6T光模块配比方案的预期,但从产业层面和个股业绩上来看,仍存在上升空间。 问:NVL72系统采用了何种散热方式,以及该系统的性能表现如何? 答:NVL72系统采用了液冷散热方式。该系统披 露的液体输入和输出温度分别为25度和45度,能够实现700TFLOPs的AI训练机性能和1440TFLOPs的推理性能。通过液冷散热方式提升散热效率,实现高密度部署和高功率输出。 问:液冷散热相比风冷散热有哪些性能上的优势? 答:液冷散热相比风冷散热,散热效率更高,对于优化数据中心能耗至关重要。随着数据中心PUE要求的逐步降低,减少散热设备能耗变得愈发重要。液冷散热系统能够显著提高散热效率,从而降低数据中心能耗,适应于PUE趋严的趋势。 问:液冷散热在数据中心中的优势有哪些? 答:液冷散热通过液体直接吸收和带走GPU等算力硬件产生的热量,相比于风冷具有更高的散热效率,可降低总能耗。目前市面上一些液冷服务器PUE能够达到接近1的水平,有助于改善数据中心整体能耗情况。此外,液冷方案在计算密度上更具优势,并且无需预留大量空间给风扇,从而允许高密度部署计算单元,减少占地面积,缩短物理距离,降低信号传输延迟。 问:液冷散热的不同方案有哪些,各自的特点是什么?液冷散热技术在数据中心发展趋势中的地位如何? 答:液冷散热包括浸没式液冷和冷板式液冷两种方案。冷板式液冷通过冷板将发热元器件的热量间接传递给冷却液体,再由冷却液体带走热量;而浸没式液冷技术则是将液体作为传热介质,直接浸泡发热器件并实现热交换。此次英伟达的NVL72方案采用了冷板式液冷。随着数据中心从低密度向高密度发展,液冷散热的优势将逐步显现。液冷散热作为一种散热效率更高的方式,能够提升算力部署密度、降低系统功耗,因此被视为传统风冷散热的替代选择,并且随着单机柜功率密度提高,液冷渗透率提升的趋势明显。英伟达首次推出采用液冷方案的机架级系统,预示着液冷技术将成为行业发展的大趋势。 问:哪些服务器厂商已经开始布局液冷技术并推出了相关产品? 答:服务器厂商如联想、浪潮、紫光、曙光等早在几年前就开始积极拓展液冷产品线。联想发布 了ThinkSystem人工智能产品组合的拓展,新华三在2023年发布全栈液冷解决方案,G6系列服务器等产品组合;浪潮早在2022年就将“Allin液冷”纳入发展战略,全线产品支持冷板式液 冷;中科曙光子公司曙光数创在液冷领域积累了长时间的研发经验,形成面向冷板液冷数据中心基础设施产品。这些产业尺寸的推动和落地表明液冷技术正在逐步得到广泛应用。 问:英伟达第五代NVlink技术在GPU通信效率方面有何提升? 答:英伟达第五代NVlink技术相较于初代产品在双向带宽上实现了翻倍增长,从900GB提高到1.8TB。这种专用的C2C板片间互联技术有望显著提升GPU之间的通信效率,进一步强化AI芯片集群的整体计算性能。 问:NVswitch如何解决NVlink在初代架构中无法实现完全点对点连接的问题? 答:在V100架构中,英伟达引入了基于NVlink的高级通信能力,构建了NVswitch芯片,实现了节点间拓展NVlink连接,从而使得GPU集群连接更高效、高性能。新一代NVlinkswitch系 统最多可连接576块GPU,总带宽最高可达1PB/s。 问:NVlink5.0技术在GB200芯片组网方案中的应用情况如何? 答:在GB200芯片组网方案中,通过NVlink5.0高速协议实现3.6TB聚合带宽,提升了对于AI计算场景中显存需求较高的性能表现。相较于上一 代4.0版本,最多连接集群数量已从256个提升至576个。 问:英伟达在板间互联(B2B)领域有何升级举措? 答:英伟达发布了X800系列交换机及新一代网卡 Connect-X8,这些产品基于全新的平台,如Q3400系列交换机,可实现144个800Gbps端口配置,等效分配为72个1.6TB端口,端口速率 相比之前的产品有了大幅升级。 问:CX8网卡在数据中心网络升级中的作用是什么? 答:在GTC大会中,同步配套的CX8网卡从CX7的400G速率升级到800G整体速率,预计在25年数据中心内部网络部署方案中将带来确定性加速 放量,这主要得益于B2B网络产品端的升级。问:GB200整体组网方案是否可简单用“光进铜 退”定义? 答:不能简单用光进铜退或光退铜进来定义 GB200整体组网方案,因为这隐含了光互联总量之间形成严格替代关系的假设,忽略了需求量之 间的替代关系及总量可能的增长演进。 问:GB200的NVL72组网方案如何构成及连接方式? 答:NVL72组网方案中,每个机柜包含18个计算节点、9台NVSwitchtree,18个计算节点内每 节点2片GB200芯片,共4块BlackWellGPU和2 块CPU。每个计算节点内还配置了4颗CX8800G 网卡。机柜内部计算节点与NVswitch主要使用铜缆实现互联,而非光模块。 问:英伟达对GB200和GH200销售策略有何转变? 答:英伟达销售策略由强调通过连接多颗GPU实现高性能组合转变为突出单机柜72颗GPU的性能升级,并可能以单机柜的形式作为主打销售方 案。同时,基于NVlink5.0版本,最多可实现576片GPU互联,但在当前官网信息中并未详细说明如何实现跨机柜的576颗GPU互联。