您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:光模块&液冷专家交流纪要 - 发现报告
当前位置:首页/会议纪要/报告详情/

光模块&液冷专家交流纪要

2024-03-25未知机构郭***
光模块&液冷专家交流纪要

光模块&液冷专家交流纪要 问:GB200在局域网连接中的光模块配比关系如何变化?答:无论是否考虑跨机柜互联,每个计算节点内 部的GPU和1.6T光模块配比关系保持不变,如采用三层交换机,则GPU芯片和1.6T光模块数量比例为1比3。但在连接到数据中心局域网时,具体数量关系仍取决于交换机构建层数,即GPU芯片和1.6T光模块数量比例为1:2或1:3。 问:在GB200整体系统互联方案中,光模块的占比及增长情况如何? 答:光模块在GB200系统中的占比至少不会出现比例关系下降,而是稳中有增。其增长主要来自 于跨机柜互联需求,即在最终GB200出货中其占比的重要性。问:光模块在GB200系统中的应用场景及潜在增长点是什么? 答:GB200系统中,光模块不仅解决了单机柜内高集成度方案的价值量和能力提升问题,而且随 着GB200性能、功耗和性价比相较于前代产品有所改进,预期光模块配比会随着GB200出货量占比提升而增长。如果GB200系列中BlackWel lGPU的出货量占比提升,那么对光连接和铜连接来讲都是一个增量利好。问:1.6T生态布局及交换机商用部署情况如何? 答:Q3400最新一代交换机明确提及72个1.6T端口,意味着已开始向1.6T端口上量。同时,预计Context的X800交换机和以太网的s pectrumX800交换机明年通过生态合作伙伴开始交付,英伟达1.6T交换机有望在明年开启整体交付。技术层面,光口和电口的1.6T能力均已初步成熟。 问:1.6T网络加速落地对光模块和交换机产业的影响是什么?对于光模块和交换机产业链的投资 观点是什么? 答:率先参与到全球1.6T数据中心网络供应的光模块和交换机等硬件龙头企业有望率先受益 。预 计2025年1.6T网络有望实现加速落地。当前最新观点认为,海外光模块产业链的头部个股在年报 和一季报业绩确定性上明显优于成长性资产,建议关注这些个股的逢低配置机会。尽管市场并未 显著上调明年光模块需求量和GB200主要方案中1.6T光模块配比方案的预期,但从产业层面和个股业绩上来看,仍存在上升空间。 问:NVL72系统采用了何种散热方式,以及该系统的性能表现如何? 答:NVL72系统采用了液冷散热方式。该系统披露的液体输入和输出温度分别为25度和45度,能够实现700TFLOPs的AI训练机性能和144 0TFLOPs的推理性能。通过液冷散热方式提升散热效率,实现高密度部署和高功率输出。问:液冷散热相比风冷散热有哪些性能上的优势? 答:液冷散热相比风冷散热,散热效率更高,对于优化数据中心能耗至关重要。随着数据中心PUE要求的逐步降低,减少散热设备能耗变得愈发重要。液冷散热系统能够显著提高散热效率,从而降低数据中心能耗,适应于PUE趋严的趋势。 问:液冷散热在数据中心中的优势有哪些? 答:液冷散热通过液体直接吸收和带走GPU等算力硬件产生的热量,相比于风冷具有更高的散热效率,可降低总能耗。目前市面上一些液冷服务器PUE能够达到接近1的水平,有助 于改善数据中心整体能耗情况。此外,液冷方案在计算密度上更具优势,并且无需预留大量空间给风扇,从而允许高密度部署计算单元,减少占地面积,缩短物理距离,降低信号传输延迟。 问:液冷散热的不同方案有哪些,各自的特点是什么?液冷散热技术在数据中心发展趋势中的地位如何? 答:液冷散热包括浸没式液冷和冷板式液冷两种方案。冷板式液冷通过冷板将发热元器件的热量间接传递给冷却液体,再由冷却液体带走热量;而浸没式液冷技术则是将液体作为传热介质,直接浸泡发热器件并实现热交换。此次英伟达的NVL72方案采用了冷板式液冷。随着数据中心从低 密度向高密度发展,液冷散热的优势将逐步显现。液冷散热作为一种散热效率更高的方式,能够提升算力部署密度、降低系统功耗,因此被视为传统风冷散热的替代选择,并且随着单机柜功率密度提高,液冷渗透率提升的趋势明显。英伟达首次推出采用液冷方案的机架级系统,预示着液冷技术 将成为行业发展的大趋势。 问:哪些服务器厂商已经开始布局液冷技术并推出了相关产品? 答:服务器厂商如联想、浪潮、紫光、曙光等早在几年前就开始积极拓展液冷产品线。联想发布了ThinkSystem人工智能产品组合的拓展,新华三在2023年发布全栈液冷解 决方案,G6系列服务器等产品组合;浪潮早在2022年就将“Allin液冷”纳入发展战略,全线产品支持冷板式液冷;中科曙光子公司曙光数创在液冷领域积累了长时间的研发经验,形成面向冷板液冷数据中心 基础设施产品。这些产业尺寸的推动和落地表明液冷技术正在逐步得到广泛应用。 问:英伟达第五代NVlink技术在GPU通信效率方面有何提升? 答:英伟达第五代NVlink技术相较于初代产品在双向带宽上实现了翻倍增长,从900GB提高到1.8TB。这种专用的C2C板片间互联技术有望显著提升GPU之间 的通信效率,进一步强化AI芯片集群的整体计算性能。 问:NVswitch如何解决NVlink在初代架构中无法实现完全点对点连接的问题? 答:在V100架构中,英伟达引入了基于NVlink的高级通信能力,构建了NVswitch芯片,实现了节点间拓展NVlink连接,从而使得GPU集群连接更高效、高性能。新一代NVlinkswitch系统最多可连接576 块GPU,总带宽最高可达1PB/s。 问:NVlink5.0技术在GB200芯片组网方案中的应用情况如何? 答:在GB200芯片组网方案中,通过NVlink5.0高速协议实现3.6TB 聚合带宽,提升了对于AI计算场景中显存需求较高的性能表现。相较于上一代4.0版本,最多连接集群数量已从256个提升至576个。 问:英伟达在板间互联(B2B)领域有何升级举措? 答:英伟达发布了X800系列交换机及新一代网卡Connect-X8,这些产品基于全新的平台,如Q3400系列交换机,可实现144个800 Gbps端口配置,等效分配为72个1.6TB端口,端口速率相比之前的产品有了大幅升级。 问:CX8网卡在数据中心网络升级中的作用是什么? 答:在GTC大会中,同步配套的CX8网卡从CX7的400G速率升级到800G整体速率,预计在25年数据中心内部网络部署方案中将带来确定性加速 放量,这主要得益于B2B网络产品端的升级。问:GB200整体组网方案是否可简单用“光进铜 退”定义? 答:不能简单用光进铜退或光退铜进来定义 GB200整体组网方案,因为这隐含了光互联总量之间形成严格替代关系的假设,忽略了需求量之 间的替代关系及总量可能的增长演进。 问:GB200的NVL72组网方案如何构成及连接方式? 答:NVL72组网方案中,每个机柜包含18个计算节点、9台NVSwitchtree,18个计算节点内每节点2片GB200芯片,共4块BlackWe llGPU和2块CPU。每个计算节点内还配置了4颗CX8800G网卡。机柜内部计算节点与NVswitch主要使用铜缆实现互联,而非光模块。 问:英伟达对GB200和GH200销售策略有何转变? 答:英伟达销售策略由强调通过连接多颗GPU实现高性能组合转变为突出单机柜72颗GPU的性能升级,并可能以单机柜的形式作为主打销售方 案。同时,基于NVlink5.0版本,最多可实现576片GPU互联,但在当前官网信息中并未详细说明如何实现跨机柜的576颗GPU互联。