英伟达推出Blackwell平台 3月19日凌晨,英伟达CEO黄仁勋在GTC大会上推出了新一代算力产品,包括Blackwell架构、Blackwell GPU、GB200超级芯片组和DGX GB200系列服务器等。与上代产品H100相比,GB200在算力、能耗和成本方面都有了很大的提升。此次GTC大会,黄仁勋强调了Blackwell平台的重要性,英伟达产品的重心也从过去提供芯片(GPU)向提供机柜(DGX系列)、AI数据中心转变。 Blackwell GPU:双芯片设计,C2C实现连接 Blackwell GPU采用台积电定制的4NP制程工艺,拥有2080亿个晶体管,比H100多1280亿个晶体管。Blackwell GPU采用双芯片设计,将两颗Blackwell架构的GPU die通过NVLink-C2C连接合封成一颗GPU。Blackwell GPU采用的C2C是多芯片封装工艺(MCM),与直接做成一颗大die相比,两颗小die的良率、设计成本及制造成本上更有优势。过去先进封装主要应用在异构芯片上,英伟达将2颗相同die合封有望引领封装进入新的应用场景。 NVlink Switch:背板铜缆连接,成本效益显著 英伟达通过设计NVLink Switch芯片构建了DGX GB200 NVL72系统,实现了GPU之间的高速通信,就可以将DGX视为一个很大的GPU系统。NVLink Switch芯片采用台积电4NP制造工艺,拥有500亿个晶体管,同时拥有4个带宽为1.8TB/s的NVLink。NVLink Switch采用铜连接技术,成本效益显著。使用光连接驱动NVLink主干需要耗电2万瓦,而NVLink Switch无需耗电就可以做到。此外,采用线缆背板架构能有效解决传统主板架构无法容纳众多GPU或CPU的问题。 DGX SuperPOD:高效液冷机架,助力机柜散热 英伟达推出了下一代AI超级计算机——由NVIDIA GB200 Grace Blackwell超级芯片提供支持的NVIDIA DGX SuperPOD,用于处理万亿参数模型,并具有持续的正常运行时间,以实现超大规模生成式AI训练和推理工作负载。新型DGX SuperPOD采用新型高效液冷机架规模架构,采用NVIDIA DGX GB200系统构建。与风冷技术相比,液冷的优势在于散热效率高、温度控制稳定且能耗低,冷板式液冷和浸没式液冷是行业目前的两条主流技术路线。 投资建议:新硬件新机遇 英伟达是全球AI龙头,其GPU技术将持续引领市场,Blackwell平台带来的新硬件有望成为行业标杆,关注新硬件带来的增量市场机遇:(1)AI芯片的制造离开不开先进工艺,先进制造及封装相关标的:中芯国际、中微公司、芯源微、华海诚科等。(2)HBM供给紧缺,相关标的:雅克科技、中微公司、华海诚科等。(3)重视铜连接、液冷产业链。 风险提示:GB200量产、发售不及预期;HBM、CoWoS供给不及预期。 1.Blackwell平台带来哪些新硬件? 3月19日凌晨,英伟达CEO黄仁勋在GTC大会上推出了新一代算力产品,包括Blackwell架构、Blackwell GPU、GB200超级芯片组和DGXGB200系列服务器等。此次GTC大会,黄仁勋强调了Blackwell平台的重要性,英伟达产品的重心也从过去提供芯片(GPU)向提供机柜(DGX系列)、AI数据中心转变。 图表1:英伟达基于Blackwell平台推出GB200系列产品 与上代产品H100相比,GB200在算力、能耗和成本方面都有了很大的提升。过去8年,GPU计算速度提升了近1000倍。Blackwell架构的token生成能力是Hopper的5倍,推理能力是其5倍。 图表2:AI算力8年提升1000倍 图表3:Blackwell GPU性能远优于Hopper GPU 图表4:GB200算力是H100的30倍 1.1双芯片设计,C2C实现连接 Blackwell GPU采用台积电定制的4NP制程工艺,拥有2080亿个晶体管,比H100多1280亿个晶体管。Blackwell GPU采用双芯片设计,将两颗Blackwell架构的GPU die通过NVLink-C2C连接合封成一颗GPU。两颗GPU die之间的数据传输速率可以达到10TB/s,从而不存在内存局部性和缓存一致性问题,因此可将其视为单个CUDA GPU。Blackwell GPU采用的C2C是多芯片封装工艺(MCM),与直接做成一颗大die相比,两颗小die的良率、设计成本及制造成本上更有优势。 图表5:1颗Blackwell架构die通过C2C工艺合封成1颗Blackwell GPU 算力快速提升下,HBM、CoWOS或供不应求。BlackwellGPU搭配了8颗HBM3e内存,容量可以达到192GB,相比H200增加36%。GPU和HBM通过采用CoWoS工艺合封在一块载板上。HBM是垂直堆叠DRAM芯片,通过硅通孔(TSV)连接,并使用TCB键合。随着算力需求的快速提升,对HBM的需求也将快速提升,对CoWoS的产能也提出更多需求。此外,HBM需求的快速提升,对于高端DRAM颗粒的需求也有望提升,存储颗粒市场库存有望实现较快消耗。 图表6:Blackwell 图表7:CoWoS工艺 HBM市场快速增长,供给持续紧缺。根据TrendForce,2023年HBM产值约为43.56亿元,占DRAM产业比重约8.4%,至2024年底扩大至20.1%。以现阶段主流产品HBM3市占率来看,海力士占比超过90%,三星将随着后续数个季度AMD MI300放量持续紧追。2024年三星、海力士对于HBM产能的布局最积极,三星有望扩至13万片/月,海力士有望扩至12万片。考虑到HBM良率比DDR5低约20-30%、生产周期较DDR5多1.5-2个月,产能释放需要时间,HBM市场供应或将持续紧俏。 图表8:23-24年全球HBM与DRAM产业产值 图表9:23-24年各供货商HBM/TSV产能(万片/月) 1.2背板铜缆连接,成本效益显著 通过NVLink Switch构建巨大的GPU系统,以实现GPU之间的全速通信。英伟达通过设计NVLink Switch芯片构建了DGX GB200 NVL72系统,实现了GPU之间的高速通信,就可以将DGX作为一个巨大的GPU系统。NVLink Switch芯片采用台积电4NP制造工艺,拥有500亿个晶体管,同时拥有4个带宽为1.8TB/s的NVLink。第五代NVLink发布后,最多可连接576个GPU。 图表10:NVLink Switch芯片 图表11:DGX GB200 NVL72 NVLinkSwitch采用铜连接技术,成本效益显著。在AI服务器中,采用线缆背板架构的原因在于它能有效解决传统主板架构无法容纳众多GPU或CPU的问题。在单个DXG机柜里,每秒钟有130TB的数据通过机箱的背面,几乎可以在一秒内触及每个互联网客户。每个机柜里面有5000根NVLink电缆,总长度达2英里。如果使用光传输的话,就必须使用光模块和retimer,使用这两个器件驱动NVLink主干就需要耗电2万瓦,而NVLink Switch无需耗电就可以做到。 图表12:机柜背面采用铜连接技术 相同AI大模型下,Blackwell成本、能耗更有优势。如果要在90天内训练1个1.8万亿参数的模型,Hopper GPU需要使用8000片、耗电约15兆瓦,BlackwellGPU则只需要2000片、耗电仅4兆瓦。 图表13:Blackwell实现AI大模型更有成本、能耗优势 1.3高效液冷机架,助力机柜散热 采用新型高效液冷机架规模架构。英伟达推出了下一代AI超级计算机——由NVIDIA GB200 Grace Blackwell超级芯片提供支持的NVIDIA DGX SuperPOD,用于处理万亿参数模型,并具有持续的正常运行时间,以实现超大规模生成式AI训练和推理工作负载。新型DGX SuperPOD采用新型高效液冷机架规模架构,采用NVIDIA DG GB200系统构建。与风冷技术相比,液冷的优势在于散热效率高、温度控制稳定且能耗低,冷板式液冷和浸没式液冷是行业目前的两条主流技术路线。 图表14:GB200 NVL72采用高效液冷架构 中国液冷服务器市场或将保持快速增长。2023上半年中国液冷服务器市场规模达到6.6亿美元,同比增长283.3%,预计2023年全年将达到15.1亿美元。IDC预计,2022-2027年,中国液冷服务器市场年复合增长率将达到54.7%,2027年市场规模将达到89亿美元。背板铜连接技术可带来成本效益,同时对散热提出更高要求,英伟达背板铜连接技术的使用有望加速液冷服务器市场规模快速增长。 图表15:中国液冷服务器市场规模(亿美元) 2.投资建议:新硬件新机遇 英伟达是全球AI龙头,其GPU技术将持续引领市场,Blackwell平台带来的新硬件有望成为行业标杆,建议关注新硬件带来的增量市场机遇。 2.1关注先进封装受益标的 先进算力离不开先进技术,英伟达新一代GPU采用4NP制程和CoWoS封装工艺,相关产业链集中在中国台湾、韩国、欧美等地,国产发展空间广阔。随着国内加大对半导体产业的支持,国内企业有望实现技术突破,相关标的:中芯国际、中微公司、芯源微、华海诚科等。 2.2关注国产HBM受益标的 HBM技术在高性能计算和人工智能领域展现了显著的高速、高带宽和低功耗特性,在AI市场热潮下具有广泛的应用前景。当前全球HBM市场主要被海外垄断,国内HBM产业尚处于发展初期,部分企业开始布局,相关标的:雅克科技、中微公司、华海诚科等。 2.3重视铜连接、液冷产业链 基于Blackwell平台,英伟达发布了一系列超级计算产品,新增铜连接、液冷技术,而新技术的引入对AI计算的成本效益、算力性能均有所提升。我们认为,英伟达新技术的引入有望加速这些新技术在AI领域的渗透,重视铜连接、液冷产业链。 3.风险提示 1)GB200量产、发售不及预期。英伟达发布的新品若量产、售卖不及预期,对相关产业链产生不利影响。 2)HBM、CoWoS供给不及预期。高算力GPU芯片必须配套HBM等产品或工艺,若相关产能供给不及预期,对产业链造成不利影响。