——HBM,训练侧/推理侧需求的共同焦点突破存算协同范式下的“存储墙“困境 摘要 •AI算力倍增背景下,“算力墙”日益凸显。在AI训练和推理中,大量矩阵计算需快速内存访问。当内存无法跟上计算速度时,GPU利用率下降,系统性能无法线性随算力提升。内存带宽不足已成为AI领域亟待解决的关键瓶颈 •HBM(HighBandwidthMemory)采用3D堆叠DRAM和宽总线并行访问设计,相较于传统平面DRAM、GDDR有着高带宽、低功耗、小封装/集成体积的特点 •堆栈层数定容量,引脚数量、数据传输速率定带宽。从HBM1至HBM3e,单堆栈堆叠层数由最高8层至16层,单DRAM容量上限由16Gb(2GB)至32Gb(4Gb),单颗HBM芯片容量由16GB扩展至64GB。相比于容量扩充,存储带宽上限由于总IO数量扩充至1024,单PIN数据船速速率由1Gbps提升至最高9.6Gbps,单颗HBM存储带宽上限提升至1.2TB/s •HBM制造核心工艺涉及TSV、微凸点的垂直互连,TSV工艺约占堆叠封装成本的37%。TSV达到通孔高深宽比理论极限,需通过DRIE+BOSCH工艺以形成垂直通孔;镀铜前,需沉积绝缘层及扩散阻挡层,等离子体增强化学气相沉积(PECVD)+正硅酸乙酯气体(TEOS)+硅烷(SiH4)在AR过高(如15:1)时侧壁薄膜变薄或中断,因此业界探索使用原子层沉积(ALD)来获得更佳的膜覆盖。但ALD的缺陷在于沉积速率慢,设备及材料成本较高。刻蚀完成TSV通孔后,需要进行金属填充以形成垂直导通。目前高性能HBM应用多采用电化学镀铜(ECP)填充TSV。最终,需要通过化学机械平坦化抛光(CMP)去除多余铜并露出TSV铜柱顶面,使其与表面平齐。CMP工艺要精确控制露铜(dishing)程度 •键合工艺实现多层堆叠,成本敏感度较高;传统回流焊+毛细底填充工艺在随着HBM堆叠层数增加和凸点间距减小(芯片间隙可低至20μm),毛细流动变得困难,容易残留空隙导致应力集中。TCP+NCF通过预先涂布底填充材料来进行键合,由于助焊剂底部清洗难度较大,业界开发出fluxless(无助焊剂)工艺。但热压键合工艺效率较低,无法批量操作。液态模塑底填充使用低粘度、高渗透性的树脂以保证在窄间隙中无死角充填,并且可批量,效率较高或成为主流。混合键合仍处于初步阶段,但高I/O优势显著。D2W方式可以在裸芯良率较低背景下提高封装良率,但效率较低;未来可能出现DRAM层间采用MR-MUF键合工艺,而通过D2W或W2W与基底逻辑Die键合的组合键合方式 •HBM市场现状及市场规模:根据TrendForce数据,从HBM供应市场角度,SK海力士、三星、美光独占HBM市场,且SK海力士、三星的集中度较高,且相关设备国产化率较低。IDTechEX预测,高性能计算(HPC)硬件市场2025-2035期间将保持13.6%的年化增长率,市场规模将超5810亿美元。其中,95%的HPC将使用HBM技术以满足性能需求,HBM单位销售额预计至2035年,将较2024年增长15倍 •相关公司:拓荆科技(688072.SH):薄膜沉积设备+混合键合、盛美上海(688082.SH):电镀设备达到国际水平、华海清科(688120.SH):磨削、CMP及清洗一体化 •风险提示:HBM工艺复杂,涉及产业链设备及产业链仍以海外企业为主,地缘影响较大;AI产业链发展不及预期,对高性能存储需求下降。 目录 一、“存储墙”-在算力倍升背景下,存储带宽成为“阿姆达尔短板” 二、HBM:高带宽/高集成密度内存的核心优势 三、HBM核心要素:垂直互连-TSV及微凸点、UBM工艺 四、键合工艺:实现多层堆叠,多种键合工艺及混合键合 五、HBM现阶段市场规模及工艺趋势 六、相关公司 风险提示:HBM工艺复杂,涉及产业链设备及产业链仍以海外企业为主,地缘影响较大;AI产业链发展不及预期,对高性能存储需求下降 “存储墙”-在算力倍升背景下,存储带宽成为“阿姆达尔短板” •冯·诺依曼架构下,存储器带宽、容量成为了硬件算力效率的“阿姆达尔短板”,处理器性能提升被内存传输速率所制约,内存带宽年增速仅约15%。随着GPU/AI加速器算力猛增,内存无法及时“喂饱”计算单元,导致性能受限。在AI训练和推理中,大量矩阵计算需快速内存访问。当内存无法跟上计算速度时,GPU利用率下降,系统性能无法线性随算力提升。内存带宽不足已成为AI领域亟待解决的关键瓶颈。图:A100存储架构与CPU类似,均配备私有缓存、共享缓存(HBM) 数据来源:《AIandMemory Wall》,金元证券研究所 数据来源:NVIDIA,金元证券研究所 “存储墙”对AI训练/推理的影响 •大模型受制于内存容量:百亿/万亿级参数模型训练和推理需要数百GB到数TB内存。当前GPU搭载的高带宽显存容量增长有限,很多模型无法全部加载到单卡内存,不得不拆分到多卡,增加通信开销。 •带宽瓶颈限制Inference性能:即使GPU峰值算力很高,但若内存带宽不足,实际性能大打折扣。经典屋顶檐模型(Roofline Model)详细阐述了“存储墙”及“算力墙”。Facebook研究人员在PaLM论文中引入了模型FLOPs利用率(MFU)来衡量训练中算力的饱和程度,但对于推理,更相关的指标是模型带宽利用率(MBU)。MBU定义为实际消耗的内存带宽除以硬件峰值带宽。在纯memory-bound情况下,MBU接近100%,此时进一步增加算力无济于事,只有提高带宽或减少数据量才能加速。很多大模型推理场景下MBU都很高,而MFU偏低。例如Llama-270B在批量1时GPU计算利用较低,但HBM带宽几乎被吃满。工程上会采用批处理等手段提高每次计算处理的token数,从而用额外吞吐换取更高效率。但在极端情况下(如单用户长文本生成),序列步骤无法并行,此时很难摆脱带宽瓶颈。Databricks实测H100集群相比A100在相同模型上BatchSize1延迟降低36%,在BatchSize16延迟降低52%,但简单“堆砌算力”(增加更多卡)效果并不显著。 数据来源:Databricks、金元证券研究所 HBM:高带宽/高集成密度内存的核心优势 •高带宽:HBM(High Bandwidth Memory)采用3D堆叠DRAM和宽总线并行访问设计,每颗HBM堆叠存储器拥有1024-bit总线,相比传统DDR/GDDR显存带宽大幅提升。例如HBM2提供>256GB/s带宽,HBM3可达819GB/s以上 •低功耗:HBM通过降低工作频率、提高总线并行度,实现更高能效。每比特传输能耗显著低于GDDR等显存(约降低30-50%)。这意味着在提供同等带宽下,HBM耗电更少,有利于控制高性能芯片的功耗和发热 •集成密度提升:HBM采用硅中介层(Interposer)的2.5D集成,将多个DRAM芯片垂直堆叠并紧贴处理器封装。相比分立显存芯片围绕PCB布局,HBM封装占用空间小、连线距离短,信号延迟低且可靠性更高。这使得在有限封装面积内提供大容量、高带宽存储成为可能。 数据来源:SKHynix,金元证券研究所 HBM技术演进历程 HBM vs GDDR:性能、能效、封装体积差异 •带宽:单颗HBM的带宽虽然工作频率较低,但凭借超宽总线显著领先单颗GDDR。典型GDDR6显存单颗带宽约64GB/s,但需要多颗并行才能达到数百GB/s;而HBM2e单堆栈(8-Hi)带宽已超过460GB/s。HBM3在NVIDIA H100上组成5120-bit总线,整卡内存带宽高达2 TB/s以上。 •功耗:HBM能在较低频率下提供高带宽,因此每单位带宽功耗大幅低于GDDR。研究表明HBM比GDDR在类似带宽下功耗低30-40%。这对数据中心GPU等功耗受限场景尤为重要,HBM降低了内存系统功耗占比 •封装/体积:HBM通过芯片堆叠实现高密度封装,每堆栈可集成多达8-16层DRAM芯片,总容量达数十GB。而GDDR需多颗分散布局,占用PCB空间大且布线复杂。在高性能计算模块中,用HBM替代传统显存可显著缩小体积并提高集成度。 数据来源:FiberMall,金元证券研究所 HBM vs平面DRAM :更多通道、更高带宽 •I/O速率:HBM每层由裸die(DRAM)组成,DDR4标准最高支持约3200MT/s(即每针3.2Gb/s);DDR5起步即4800 MT/s(每针4.8 Gb/s),并规划提升至8400MT/s左右(每针8.4Gb/s)。相比之下,HBM技术单针速率虽起步较低,但提升迅猛:HBM2E约3.6 Gb/s,HBM3提升到6.4 Gb/s;最新HBM3E进一步提高单针速率,上限约8.0~9.6Gb/s。HBM自问世以来单针速率从HBM1约1Gb/s提高到HBM3的6.4 Gb/s,再到HBM3E规划的8+Gb/s,几乎每代翻倍 •总带宽:DDR系列受限于通道位宽,相同代际下总带宽远低于HBM。单通道64位宽的DDR4-3200带宽约25.6 GB/s,DDR5-6400约51.2 GB/s。HBM采用超宽1024位总线,单颗HBM2E堆栈(1024位@3.6 Gb/s)带宽可达460 GB/s;;HBM3提高到819 GB/s(1024位@6.4Gb/s),HBM3E则进一步突破,每堆栈带宽可达1TB/s以上(1024位@8Gb/s约=1,024GB/s;@9.6 Gb/s则≈1.23TB/s) 数据来源:金元证券研究所 堆栈层数定容量,引脚数量、数据传输速率定带宽 •HBM容量(Capacity)≈单堆栈层数×单层DRAM容量;HBM存储带宽≈总IO数量位宽(位)×数据传输速率(DDR,Gbps)/8 •从HBM1至HBM3e,单堆栈堆叠层数由最高8层至16层,单DRAM容量上限由16Gb(2GB)至32Gb(4Gb),单颗HBM芯片容量由16GB扩展至64GB •相比于容量扩充,存储带宽上限由于总IO数量扩充至1024,单PIN数据船速速率由1Gbps提升至最高9.6Gbps,单颗HBM存储带宽上限提升至1.2TB/s HBM核心要素:垂直互连-TSV •HBM采用硅通孔(TSV)技术将堆叠的DRAM芯片垂直互连,常用的TSV金属填充材料包括铜(Cu,电阻率更低,但填充时易扩散)或钨(W)。工艺需先在硅中刻蚀高深宽比的通孔,再沉积介电衬垫和金属种子层,随后进行电镀填充并CMP抛光。TSV形成使每层芯片通过垂直“铜线”连接成信号通道,实现多芯片堆叠的数据传输。 •传统堆叠DRAM的封装将导线连接到每个Die的侧面,但随着布线密度提升,寄生参数(如寄生电容、电阻)导致堆叠芯片的延迟增大、功耗上升。采用TSV封装可以有效增加引脚(IO数量,传统DRAM一般为X4或X16,通过TSV堆叠,HBM引脚提升至1,024,单通道128位)的同时,缩短传输路径,提升传输速率,且功耗降低。 数据来源:SK Hynix,金元证券研究所 TSV关键技术:高深宽比刻蚀,铜填充及CMP •TSV刻蚀及沉积薄膜涉及两项关键指标:深宽比(Aspect Ratio,TSV深度与直径比值)及阶梯覆盖率(StepCoverage,跨台阶处的膜层厚度与平坦处膜层厚度比值) •高深宽比刻蚀:常用工艺包括反应离子刻蚀(Reactive Ion Etching)与激光钻孔(Laser Drill)。激光钻孔具有成本优势,但在精度、批量刻蚀、热预算等方面与RIE差距较大。随着刻蚀工艺发展和TSV密度提升,深反应离子刻蚀(Deep Reactive Ion Etching,DRIE)逐步取代RIE。DRIE与RIE的原理基本相同,均基于氟基气体通过化学、物理作用进行刻蚀,但RIE的各向异性不如DRIE。DRIE通过钝化、刻蚀交替(Bosch)方式,采用高密度等离子体(感应耦合等离子体,ICP),刻蚀速率高达20μm/min。 数据