华西计算机团队 2024年7月24日 分析师:刘泽晶 SACNO:S1120520020002 邮箱:liuzj1@hx168.com.cn 分析师:孟令儒奇 SACNO:S1120524060001 邮箱:menglrq@hx168.com.cn 请仔细阅读在本报告尾部的重要法律声明 证券研究报告|行业深度研究报告 液冷,AI时代的下一个“光模块” AIGC行业深度报告(16) 核心逻辑: 为什么说液冷是AI的下一个光模块:AI高速互联时代,高算力与高效传输架构相匹配,从40G取代10G,100G取代40G,400G取代100G,800G取代400G,1.6T有望取代800G,升级之路永不停息;液冷已经从“选配”到“必配”,高温环境下,芯片内部的电子元件会因为长时间工作而受到损耗,从而缩短芯片的使用寿命,风冷的极限芯片散热功率是800W,英伟达部分产品已经突破风冷能力上线,例如GH200以及最新款B200、GB200。此外单机柜密度来说,2025年AI集群算力单机柜密度将有望到20-50kW,也远远超出了风冷的上限。政策为液冷市场扎入“强心剂”,国家政策对PUE值要求趋紧,呈逐年下降趋势。 深度拆解液冷的核心价值链:液冷分为冷板式液冷,浸没式液冷、喷淋式液冷,我们判断冷板式液冷有望率先放量。根据我们的测算,2024、2025年我国的液冷市场规模分别为208.17、1700.23亿元,同比增速分别为756.6%、716.8%。液冷散热系统通常由至少两个相互隔离的循环回路组成,一次侧主要的散热设备主要有三种:干冷器、冷却塔和制冷机组,冷板式液冷的二次侧组件包括:冷板组件、快速接头QDC、机柜工艺冷媒供回歧管RCM、环路工艺冷媒供回歧管LCM、冷量分配单元CDU及工艺冷媒,相关公司有望在液冷趋势下快速放量。 深度拆解液冷的受益公司类型:维谛技术(Vertiv)深度绑定英伟达从而迈向成长,公司2023年3月31日股价为11.75美元,公司2024年3月31日公司股价为81.67美元,我们判断其背后的原因为由于AIGC爆发,公司相关液冷数据中心产品业绩迎来高增。我们将液冷产业链的受益公司简单拆解为三类,分别是服务器内侧端、液冷建设端、液冷基础设施提供商;我们将服务器内侧端定义为服务器内部的组件,可直接受益高功率AI芯片放量。液冷建设端,由于建设主体的不同,我们将液冷建设端分为液冷全链条式解决方案厂商、服务器厂商以及IDC厂商,每种类型厂商独具优势。液冷基础设施提供商即可提供相关液冷单独产品,随着液冷的升级换代,其相关产品有望量价齐升。 投资建议:在AI芯片架构升级的大趋势下,高算力与高功耗相匹配,英伟达相关产品功耗已经超过风冷极限,液冷已经从“选配”到“必配”,受益标的为:服务器内侧端:服务器内侧端:飞荣达等;液冷建设端,全链条式解决:英维克、申菱环境、高澜股份等;液冷建设端,服务器厂商:工业富联、浪潮信息、曙光数创等;液冷建设端,IDC建设:润泽科技、奥飞数据、数据港等;液冷基础设施提供商:强瑞技术、淳中科技、朗威股份、川环科技、海鸥股份等; 风险提示:核心技术水平升级不及预期的风险、AI伦理风险、政策推进不及预期的风险、中美贸易摩擦升级的风险。 目录 01液冷已经从“选配”到“必配” 02深度拆解液冷的核心价值链 03梳理液冷产业链的受益公司 04投资建议 05风险提示 01液冷已经从“选配”到“必配” 大模型参数呈现指数规模,引爆海量算力需求:根据财联社和OpenAI数据,ChatGPT浪潮下算力缺口巨大,根据OpenAI数据,模型计算量增长速度远超人工智能硬件算力增长速度,存在万倍差距。运算规模的增长,带动了对AI训练芯片单点算力提升的需求,并对数据传输速度提出了更高的要求。根据智东西数据,过去五年,大模型发展呈现指数级别,部分大模型已达万亿级别,因此对算力需求也随之攀升。 大模型参数量的增长,数据中心互联互通成为核心关键:在万亿级大数据的背景下,单卡/单服务器算力已经无法支撑庞大模型的训练,而芯片与芯片之间的互联成为重中之重,集群的效应显得尤为关键,因此在AI的大背景下,由于叶脊网络架构中的服务器交换流量较大,因此服务器与交换机互联的统一互联互通的数据中心均使用光模块,而光模块传输速度越高,证明其互联互通的效率也就越高,因此在整体算力芯片架构升级的大背景下,传输速率较高的光模块成为当下的首选。 近年大模型的参数规模增长趋势光模块细分市场预测 AI高速互联时代,高算力与高效传输架构相匹配:复盘英伟达数据中心芯片产品,其中明显可以看到显存带宽与互联互通传输速度的稳定增长。 AI高速互联时代,高算力与高效传输架构相匹配 架构 英伟达Volta架构 英伟达Turing架构 英伟达Ampere架构 型号 V100 V100s T4 A100 A800 规格 PCIe SXM2 PCIe PCIe SXM PCIe PCIe SXM 芯片架构 NVIDIAVolta NVIDIAVolta NVIDIAVolta NVIDIATuring NVIDIAAmpere NVIDIAAmpere NVIDIA Ampere NVIDIA Ampere NVIDIAAmpere 显存 32GB或16GBHBM2 32GB或16GBHBM2 32GBHBM2 16GBGDDR6 80GBHBM2e 80GBHBM2e 40GBHBM2 80GBHBM2e 80GBHBM2e 显存带宽 900GB/s 900GB/s 1134GB/s 320GB/S 1935GB/s 2039GB/s 1555GB/s 1935GB/s 2039GB/s FP64算力 7TFLOPS 7.8TFLOPS 8.2TFLOPS 254.4GFLOPS 9.7TFLOPS 9.7TFLOPS 9.7TFLOPS 9.7TFLOPS 9.7TFLOPS FP64TensorCore 19.5TFLOPS 19.5TFLOPS 19.5TFLOPS 19.5TFLOPS 19.5TFLOPS FP32算力 14TFLOPS 15.7TFLOPS 16.4TFLOPS 8.1TFLOPS 19.5TFLOPS 19.5TFLOPS 19.5TFLOPS 19.5TFLOPS 19.5TFLOPS FP32算力(Tensor)TensorFloat32(TF32) 156TFLOPS 156TFLOPS 156TFLOPS 156TFLOPS 156TFLOPS TF32(TensorCore) 312TFLOPS 312TFLOPS 312TFLOPS 312TFLOPS 312TFLOPS FP16算力(TensorCore) 112TFLOPS 125TFLOPS 130TFLOPS 65TFLOPS 312TFLOPS 312TFLOPS 312TFLOPS 312TFLOPS 312TFLOPS BFLOAT16(TensorCore) 312TFLOPS 312TFLOPS 312TFLOPS 312TFLOPS 312TFLOPS FP8(TensorCore) - - - - - INT8算力(TensorCore) 130TOPS 624TOPS 624TOPS 624TOPS 624TOPS 624TOPS CUDA核心数量 5120 2560 6912 6912 TensorCores核心数量 640 320 432 432 功耗 250瓦 300瓦 250瓦 70瓦 300瓦 400瓦 250瓦 300瓦 400瓦 晶管数量(亿) 211 136 542 542 制成(nm) 12nm 12nm 7nm 7nm 互联速度 32GB/s 300GB/s 32GB/s 32GB/S NVLink:600GB/sPCIe4.0:64GB/s NVLink:600GB/sPCIe4.0:64GB/s NVLink:400GB/sPCIe 4.0:64GB/s NVLink:400GB/sPCIe4.0: 64GB/s 英伟达Blackwell架构发布,传输速率更上一层楼:可以看到英伟达Blackwell架构下的新品传输速率和显存带宽相较于Hopper架构有显著提升; AI高速互联时代,高算力与高效传输架构相匹配 架构 英伟达Hopper架构 Blackwell架构 型号 H100 H800 H200 GH200 B100 B200 GB200 规格 SXM PCIe NVL SXM PCIe SXM 芯片架构 NVIDIAHopper NVIDIAHopper NVIDIAHopper NVIDIAHopper NVIDIAHopper NVIDIAHopper NVIDIAHopper+ARM NVDIABlakwell NVDIABlakwell NVDIABlakwell 显存 80GBHBM3 80GBHBM2e 188GBHBM3 80GBHBM3 80GB HBM3 141GBHBM3e 96GB|144GBHBM3e 192GB 192GB 384GB 显存带宽 3.35TB/s 2TB/s 7.8TB/s 3.35TB/s 2TB/s 4.8TB/s 512GB/s(CPU) 8TB/s 8TB/s 16TB/s FP64算力 34TFLOPS 26TFLOPS 68TFLOPS 1TFLOP 0.8TFLOP 34TFLOPS 34TFLOPS FP64TensorCore 67TFLOPS 51TFLOPS 134TFLOPS 1TFLOP 0.8TFLOP 67TFLOPS 67TFLOPS 30TFLOPS 40TFLOPS 90TFLOPS FP32算力 67TFLOPS 51TFLOPS 134TFLOPS 67TFLOPS 51TFLOPS 67TFLOPS 67TFLOPS FP32算力(Tensor)TensorFloat32(TF32 ) 67TFLOPS TF32(TensorCore) 494.5TFLOPS 378TFLOPS 989.5TFLOPS 494.5TFLOPS 378TFLOPS 494.5TFLOPS 494TFLOPS 0.9PFLOPS 1.12PFLOPS 2.5PFLOPS FP16算力(TensorCore) 989.5TFLOPS 756.5TFLOPS 1979TFLOPS 989.5TFLOPS 756.5TFLOPS 989.5TFLOPS 990TFLOPS 1.8PFLOPS 2.25PFLOPS 5PFLOPS BFLOAT16(TensorCore) 989.5TFLOPS 756.5TFLOPS 1979TFLOPS 989.5TFLOPS 756.5TFLOPS 989.5TFLOPS 990TFLOPS 1.8PFLOPS 2.25PFLOPS 5PFLOPS FP8(TensorCore) 1979TFLOPS 1513 TFLOPS 3958 TFLOPS 1979TFLOPS 1513TFLOPS 1,979TFLOPS 1,979TFLOPS 3.5PFLOPS 4.5PFLOPS 10PFLOPS INT8算力(TensorCore) 1979TOPS 1513TOPS 3958TOPS 1979 TOPS 1513TOPS 1,979TOPS 1,979TOPS 3.5PFLOPS 4.5PFLOPS 10PFLOPS CUDA核心数量 16896 16896 16896 TensorCores核心数量 528 528 528 功耗 700瓦 300-350瓦 2x350-400W 高达700瓦 300-350瓦 700瓦 1000瓦 700W 1000W 2700W 晶管数量(亿) 800 800 800 制成(nm) 4nm 4nm 4nm 4nm 互联速度 NVL