您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[华西证券]:液冷,AI时代的下一个“光模块”-AIGC行业深度报 - 发现报告
当前位置:首页/行业研究/报告详情/

液冷,AI时代的下一个“光模块”-AIGC行业深度报

电子设备2024-07-26华西证券落***
AI智能总结
查看更多
液冷,AI时代的下一个“光模块”-AIGC行业深度报

华西证券股份有限公司 仅供机构投资者使用 11 证券研究✲告行业深度研究✲告 HUAXISECURITIESCO.,LTD 液冷,AI时代的下一个“光模块 AIGC行业深度✲告(16 华西计算机团队 2024年7月24日 分析师:刘泽晶分析师:孟今儒奇 SACNO:S1120520020002SACNO:S1120524060001 邮箱:liuzj19hx168.com.cn邮箱:menglrq@hx168.com.cn 请仔细阅读在本✲告尾部的重要法律声明 目录 01液冷已经从“选配”到“必配” 02深度拆解液冷的核心价值链 03梳理液冷产业链的受益公司 04投资建议 05风险提示 3 01液冷已经从“选配”到“必配 华西证券 1.1算力在大模型时代迎来爆发,光模块需求高增HUAXISECURITIES 大模型参数呈现指数规模,引爆海量算力需求:根据财联社和Open4I数据,ChatGPT浪潮下算力缺口巨大,根据OpenAI数据,模型计算 量增长速度远超人工智能硬件算力增长速度,存在万倍差距。运算规模的增长,带动了对AI训练芯片单点算力提升的需求,并对数据传前速度提出了更高的要求。根据智东西数据,过去五年,大模型发展呈现指数级别,部分大模型已达方亿级别,因此对算力需求也随之 攀升, 大模型参数量的增长,数据中心互联互通成为核心关键:在万亿级大数据的背景下,单卡/单服务器算力已经无法支撑庞大模型的训练而芯片与芯片之间的互联成为重中之重,集群的效应显得尤为关键,因此在AI的大背景下,由于叶脊网络架构中的服务器交换流量较大因此服务器与交换机互联的统一互联互通的数据中心均使用光模块,而光模块传输速度越高,证明其互联互通的效率也就越高,因此在整体算力芯片架构升级的大背景下,传输速率较高的光模块成为当下的首选 近年大模型的参就规模增长趋势光模珠细分市汤预测 2000 1800 400100020004006 1600 1400 Spano 1200 1000 800 alegoP GPTN 200 2016201720182019202020212022202320242026 H 华西证券 1.1算力在大模型时代迎来爆发,光模块需求高增HUAXISECURITIES A高速互联时代,高算力与高效传输架构指匹配:复盘英伟达数据中心芯片产品,其中明显可以看到显存带宽与互联互通传输速度的稳 定增长。 AI高速互联时代,高算力与高效传输架构相匹配 亲构英伟达Yolta架构英伟达Turing亲构英伟达Anpere亲构 型号V100V100sT4A100A800 规格PCleSXN2pClePCleSXMPClePGleNXS 芯片架构 NVIDIANVIDIA NVIDIAVolta WIDIAVolta WIDIAVolta NV1D1AAmpere WIDIAArpere Arpere Anpere NV1DIAArpere 80GBHBWZe /80000 1134GB/s 320.69/S 1935GB/s 2039GB/s 1555GB/s 1935CB/s 20396a/s 7TFLOPS 7,8TFLOPS 8.2TFLCPS 254.4GFLOPS 9.7TFLOPS 9.7TFL0PS 9.7TFLOPS 9.7TFLOPS 9.7TFLOPS 显存32GB表16GBHBM232GB点16GBHBN232GBHBN216GBGDDR680G3HBW2e80GBHEN2e40GBHBV2B0GBHBV2e 星在带 FP64算力 -PP64TeTsorCore195L0PS-9.9TPtOPs12.5TFEOPS19.5TFEOF519.TFCOPS FP32第力14TFLOPS15.7TFLOPS16.4TFL0PS8.1TFLCPS19.5TFLOPS19.5TFLOPS19.5TFLOPS19.5TFLOPS19,5TFLOPS FP32算力(Tensor) TensorFloat32(TF32)156TFLOPS156TFL0PS156TFL0PS156TFL0PS156TFLOPS TF32(TensorCore)312TFLOPS312TFLOPS312TFL0PS312TFLOPS312TFLOPS FP16弄力(TensorGore)112TFL0PS125TFL0PS130TFLOPS65TFLOPS312TFLOPS312TFL0PS312TFLOPS312TFLOPS312TFLOPSBFLOAT16(TensorCore)312TFLOPS312TFLOPS312TFLOPS312TFLOPS312TFLOPS - FPB(TensorCore) ) INT8力(TensorCore)130TOPS624TOPS624TOPS624TOPS624TOPS624TOPS CUDA该心教量5120256069126912 TensorCores核心量640320432432 功耗250瓦300元25070元300元400元250元300瓦400瓦 品营数量(亿) 211136542542 -12 42rm 互联造度 NVLink:WLink: NVLink:400GB/sPCle NWLink:400GB/s 32GB/s300GB/s32GB/s32GB/S600GB/sPCle 4.0:64G8/s 600GB/sPCIe 4.0:64GB/s 4.0:64GB/s PCle4.0: - 64GB/s 华西证券 1.1算力在大模型时代迎来爆发,光模块需求高增HUAXISECURITIES 英伟达Blackwell架构发布,传输速率更上一层楼:可以看到英伟达Blackwell架构下的新品传输速率和显存带宽相较于Hopper架构有 显著提升; AI高速互联时代,高算力与高效传输架构相匹配 芙停达Hopper来构 Blackwe|l案构 型号 H100 H800 H200 GH2C0 B100 B2C0 GB200 SXMFCleMLNXSPCleSXM 应片关构 NVID1A MIDIAHopperMIDIAHegoerV10IAHeeer WIDIAHooerMV1DIAHeseerMVIDIAHepper+ARVWVDIABlskvel1MVDIABlakelIDIABIakwe11 -- FP64弄力 FP54TensorCore FP32算力 Hopper 808BBV2. 1303EV2 14108_上BMe 22481440RHRV3 J9208 -32468- 3.35TB/s 2TB/s 7.8TB/s 3.35TB/s 2TB/s 4.8TB/s 512GB/s(CPU) 8TB/s 8TB/s 16TB/s 34TFLCPS 26TFLOPS 68TFLCFS 1TFLOP 0.8TFLOP 34TFLOFS 34TFLCPS 67TFLCPS 51TFLOPS 134TFLOFS 1TFLOP 0.8TFLOP 67TFLOFS 67TFLOPS 30TFLOPS 40TFLOFS 90TFLOFS 67TFL0PS 51TFLOPS 134TFL0PS 67TFL0PS 51TFLOPS 67TFL0PS 67TFL0PS FP32算方(Tenser) TensorFlost32(TF32 67TFLOPS TF32(TensorCere)494.5TFLOPS378TFLOPS989.5TFLOPS|494.5TFLOPS378TFLOPS494.5TFL0FS494TFL0FS0.9PFLOPS1.12PFL0PS2.5PFL0FS FP16力(TensorCere) 989.6TFL0PS 756.5TFL0PS 1979TFLOFS 989.5TFL0PS 756.5TFL0PS 989.5TFL0FS 990TFL0FS 1,8PFLOPS 2.25PFLOPS 5PFLOFS BFL06T16(TenscrCore) 989.5TFL0PS 756.5TFL0PS 1979TFL0PS 989,.5TFL0PS 756.5TFL0PS 989,5TFL0PS 990TFL0PS 1,8PFLOPS 2.25PFL0PS 5PFLOPS FPB(TensorCere) 1979TFL0PS 1513TFLOPS 3958TFLCFS 1979TFLOPS 1513TFLOPS 1,979TFL0FS 1,979TFL0PS 3.5PFLOPS 4.5PFLOPS 10PFLOFS INTB其力(TensorCore) 1979TOFS 1513TOPS 3958TCPS 1979TOPS 1513TOPS 1,979TOPS 1,979TOPS 3.5PFLOPS 4.5PFLOPS 10PFLOFS CUDA格心数量 16896 16896 16896 TensorCores滋心教量 528 528 528 功 700LL300-350元 2x35040CW高运700瓦 3C0-350元-700.1C07.700A1CCCH270CN 晶常数量(么)800800800 MLirk:MLink: 互联连发900x8/sPCle600CB/sPC1e MLirk:NVLink: 600GB/sPC1e400GB/s MLink:400GB/s PC1e5.0: WIDIAKVLink* •900GB/S 900GB/sbidirectionalWLink:1.8TB/sMVLink:1.8TB/sMVLirk:2x1.8TB/S Ger5:128GB/sGen5:128GB/s Ger6:PCle5.0:•PCleGer5: 128GB/s 128B/s128GB/s128B/8 1 华西证券 HUAXISECURITIES 为什么说液冷是A的下一个光模块:电子产品升级送代规律使然,从上文证实的光模块成长路径,A高速互联时代,高算力与高效传输 架构相匹配。从40G取代10G,100G取代40G,400G取代100G,800G取代400G,1.6T有望取代800G,升级之路永不停息,全部体 验到从“奢侈”、“尝鲜”到“普及”、““刚需”的过程。同样,散热领域也是相同,相关技术也在提升,先是自然风冷、空调风扇 散热片,继而是液冷。液冷也有喷淋式、冷板式和浸没式等等。 为什么说液冷已经从“选配”到“必配” 芯片:环境温度对芯片的影响不容忽视,高温环境下,芯片内部的电子元件会因为长时间工作而受到损耗,从而缩短芯片的使用寿命温度升高会引起电容、电阻以及金属线等材料的热膨胀,进而导致它们的机械变形和结构破坏,最终影响芯片的正常运行。根据与非往消息,而单从芯片来看,风冷的极限芯片散热功率是800W,英伟达部分产品已经突破风冷能力上线, 根据与非网数据,2025年AI集群算力单机柜密度将有望到20-50kW,也远远超出了风冷的上限, Transormer架构(左图Encoder,右图Decoder)随着动率密度降低,液冷点本呈著降低 7.27.02 7 6.8 6.6 6.4 6,98 6.33 6.26.02 6 5.8 5.6 5.4 风冷/10kW液冷/10kW液冷/20kW液冷/40kW 微热系数/(kW-m*K") 华西证券 1.1算力在大模型时代迎来爆发,光模块需求高增HUAXISECURITIES A高速互联时代,高算力与高功耗相匹配:复盘英伟达数据中心芯片产品,其中明显可以看到其芯片算力和芯片的功耗成明显的正相关 AI高连互联时代,高算力与高效传输架构相医配 亲构英伟达Volta菜构英伟达Turing来构英伟达Anpere染构 型号V100V100sT4A100A800 PClo 规格SXN2PClePCleSXMPClePCleSXN 总片案构 NVIDIANVIDIA VIDIAVeltaW