您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国信证券]:存储专题:AI发展驱动HBM高带宽存储器放量 - 发现报告
当前位置:首页/行业研究/报告详情/

存储专题:AI发展驱动HBM高带宽存储器放量

电子设备2023-06-19胡剑、胡慧、周靖翔、李梓澎、叶子国信证券؂***
存储专题:AI发展驱动HBM高带宽存储器放量

HBM是当前GPU存储单元理想解决方案,AI发展驱动HBM放量。HBM(高带宽存储器,HighBandwidthMemory)是由AMD和SKHynix发起的基于3D堆栈工艺的高性能DRAM,适用于高存储器带宽需求的应用场合。AI大模型的数据计算量激增,需要应用并行处理数据的GPU作为核心处理器,而“内存墙”的存在限制了GPU数据处理能力,HBM突破了内存容量与带宽瓶颈,可以为GPU提供更快的并行数据处理速度,打破“内存墙”对算力提升的桎梏,被视为GPU存储单元理想解决方案,将在AI发展中持续收益。 TSV技术是HBM的核心技术之一,中微公司是TSV设备主要供应商。硅通孔技术(TSV)为连接硅晶圆两面并与硅衬底和其他通孔绝缘的电互连结构,可以穿过硅基板实现硅片内部垂直电互联,是实现2.5D、3D先进封装的关键技术之一,主要用于硅转接板、芯片三维堆叠等方面。中微公司在2010年就推出了首台TSV深孔硅刻蚀设备PrimoTSV ® ,提供的8英寸和12英寸硅通孔刻蚀设备,均可刻蚀孔径从低至1微米以下到几百微米的孔洞,并具有工艺协调性。 ALD沉积在HBM工艺中不可或缺,雅克科技是ALD前驱体核心供应商,拓荆科技是ALD设备核心供应商。由于ALD设备可以实现高深宽比、极窄沟槽开口的优异台阶覆盖率及精确薄膜厚度控制,在HBM中先进DRAM加工工艺和TSV加工工艺中是必不可少的工艺环节。雅克科技是国内ALD沉积主要材料前驱体供应商,公司前驱体产品供应HBM核心厂商SK海力士,High-K、硅金属前驱体产品覆盖先进1bDRAM、200层以上3DNAND以及 3nm 先进逻辑电路等。拓荆科技是国内ALD设备的主要供应商之一,公司PEALD产品用于沉积SiO、SiN等介质薄膜,在客户端验证顺利;Thermal-ALD产品已完成研发,主要用于沉积 Al2O3 等金属化合物薄膜。 HBM主要应用2.5D+3D先进集成,IC载板是转接板核心材料。HBM借助TSV技术实现2.5D+3D先进集成,而IC载板是集成电路先进封装环节的关键载体,建立IC芯片与PCB板之间的讯号连接。在目前应用较广的2.5D+3D的先进封装集成电路中,都采用IC载板作为承载芯片的转接板,如AMD2015年推出的RadeonR9FuryXGPU中使用了 64nm 的TSVIC载板作为转接板,NVIDIA的Pascal100GPU基于台积电 16nm 工艺技术,连接在台积电 64nm CoWoS-2转接板上,然后封装在PCB板上完成搭建。 相关公司:中微公司、雅克科技、拓荆科技、兆易创新、北京君正。 风险提示:HBM下游需求不及预期,产业链相关企业发展进度不及预期。 HBM:高带宽DRAM,GPU理想存储解决方案 HBM(高带宽存储器,HighBandwidthMemory)是一款新型的CPU/GPU内存芯片,是由AMD和SKHynix发起的基于3D堆栈工艺的高性能DRAM,适用于高存储器带宽需求的应用场合。HBM以位元计算,通过增加带宽,扩展内存容量,让更大的模型、更多的参数留在离核心计算更近的地方,从而减少内存和存储解决方案带来的延迟,目的实现大容量,高位宽的DDR组合阵列,目前HBM占整个DRAM市场比重约1.5%,为新型高性能存储产品。 图1:HBM主要以TSV技术垂直堆叠芯片,达到缩减体积、降低能耗的目的 AI大模型催动DRAM需求 AI大模型处理数据的吞吐量呈指数级增长,对内存的提出更高的带宽需求,HBM迎来发展机遇。AI大模型的数据计算量激增,需要应用并行处理数据的GPU作为核心处理器,GPU搭载的内存芯片带宽关联GPU数据处理能力,高带宽的内存芯片可以为GPU提供更快的并行数据处理速度,对GPU的性能起到了决定性作用。 图2:AI模型计算量增长迅猛 图3:HBM提供更快的数据处理速度 动态内存能力对大模型训练至关重要。内存方面,大模型训练的内存可以大致理解为参数、优化器状态、激活、梯度四部分的和。它们大致分为两类:静态内存和动态内存。参数、优化器状态较为固定,属于静态内存,激活和梯度等中间变量属于动态内存,是最主要的内存占用原因,动态内存通常是静态内存的数倍。 图4:大模型语言计算对应内存需求 图5:静态内存参数、优化器状态较为固定 图6:动态内存通常是静态内存的数倍 训练1750亿参数的GPT3所需内存,大约需要3.2TB以上。静态内存方面,大多数Transformer都是以混合精度训练的,如FP16+FP32,以减少训练模型内存,则一个参数占2个字节,参数和优化器状态合计占用内存1635G。而动态内存,根据不同的批量大小、并行技术等结果相差较大,通常是静态内存的数倍。更简洁的估算方法,可以假设典型的LLM训练中,优化器状态、梯度和参数所需的内存为20N字节,其中N是模型参数数量,则1750亿参数的GPT3大概需要3.2TB内存。推理所需内存则较小,假设以FP16存储,175B参数的GPT3推理大约需要内存327G,则对应4张80GA100,如果以FP32运算,则需要10张。 图7:AI服务器提升存储器需求 图8:模型越大需要设备内存越大 3DDRAM解决“内存墙”问题 “内存墙”是处理器算力超过存储芯片存取能力,内存墙的存在导致综合算力被存储器制约。据行业预计,处理器的峰值算力每两年增长3.1倍,而动态存储器(DRAM)的带宽每两年增长1.4倍,存储器的发展速度远落后于处理器,相差1.7倍。由于处理器处理数据过程同样需要动态存储器的支持,“内存墙”的存在制约了处理器的算力提升速度。 图9:存储带宽落后于算力成长速度形成“内存墙” 将DRAM3D化是解决内存墙的主要方法。将DRAM从传统2D转变为立体3D,借助TSV等技术实现内存芯片在3D维度进行堆叠,充分利用空间提升内存芯片密度,缩小芯片表面积,契合半导体行业小型化、集成化的发展趋势。3D DRAM的发展也有堆叠引线键合、倒装混合引线键合等多种实现方式,HBM是3D DRAM的一种形式,相较于其他DRAM的集成方式,HBM存储单元外的导线长度最短,数据传递速度最快,损耗最小,是目前最理想化的3D DRAM形式。HBM突破了内存容量与带宽瓶颈,打破了“内存墙”对算力提升的桎梏,被视为新一代DRAM解决方案,是未来DRAM重要发展路径。 图10:3DDRAM几种实现方式 图11:HBM每个DRAM单元间引线最短 据集邦咨询数据,存储巨头SK海力士是目前HBM最大的供应商,占据50%的市场份额。SK海力士在2013年推出了首款HBM存储器,共包含4个DRAM单元,后续海力士陆续推出了HBM2、HBM2e和HBM3,带宽和I/O速度进一步提升。除海力士外,三星、美光占据了HBM其余市场。由于HBM主要和GPU搭载使用,封装主要以TSV 3D封装进行,所以通常在晶圆厂内完成,当前台积电、格芯等也在发力HBM技术的研究与制造。当前SK海力士已经实现了HBM3的量产,搭载在NVIDIAGPU H100之中,其带宽在HBM2460GB/s的基础上提升了78%,达到了819GB/s,随着GPU算力的不断提升,HBM在速度、密度、功耗、占板空间方面也将持续提升。 图12:HBM3带宽进一步提升 当前高端GPU已搭载高端HBM作为先进封装存储单元的解决方案。NVIDIA高端GPU H100、A100主采HBM2e、HBM3,H100 GPU上主要搭载HBM3内存。此外,AMD的MI200、MI300以及Google自研TPU等均将搭载高带宽的HBM提升内存能力,Trend Force集邦咨询预估2023年HBM需求量将年增58%,2024年有望再增长30%。 图13:Chiplet搭载HBM作为存储单元解决方案 关键技术助力HBM发展 HBM关键技术#1:硅通孔技术(TSV) 硅通孔技术(TSV,Through SiliconVia)为连接硅晶圆两面并与硅衬底和其他通孔绝缘的电互连结构,可以穿过硅基板实现硅片内部垂直电互联,这项技术是目前唯一的垂直电互联技术,是实现2.5D、3D先进封装的关键技术之一,主要用于硅转接板、芯片三维堆叠等方面。TSV的尺寸多为10μm×100μm和30μm×200μm,开口率介于0.1%-1%。相比平面互连,TSV可减小互连长度和信号延迟,降低寄生电容和电感,实现芯片间的低功耗和高速通信,增加宽带和封装小型化。 在有源芯片中,当前TSV开孔一般在10um左右,深宽比约为10:1,微凸点互联间距在40-50um,由于TSV本身占据面积较大,且会形成一定应力影响区,发展方向向5um以下、深宽比10以上发展,实现更小的体积和更低的成本。 图14:硅通孔技术流程 图15:TSV当前深宽比约在10:1 图16:TSV目前开孔约在10um HBM是借助TSV技术实现多个DRAM之间的连通堆叠。借助TSV技术,多个HBM单元可以以3D形式集成在同一个转接板上。英伟达采用台积电第4代CoWoS技术封装了A100GPU,实现一颗A100GPU和6个三星HBM2集成为一颗芯片。该技术将多颗芯片键合至硅基转接板晶圆上(Si Interposer),形成逻辑SoC芯片和HBM阵列,通过RDL和TSV形成互联并连接硅基转接板晶圆凸点。英特尔Foveros技术(3DFacetoFaceChipStackforheterogeneousintegration)亦通过3D TSV实现3D堆叠异构封装技术。 图17:英伟达A100 GPUCoWoS封装 图18:基于TSV技术实现堆叠HBM 关键技术#2:ALD沉积 原子层沉积(ALD)是将原子逐层沉积在衬底材料上的工艺,通过将两种或多种前驱体交替通过衬底表面,发生化学吸附反应逐层沉积在衬底表面,能对复杂形貌基底表面全覆盖成膜。由于ALD设备可以实现高深宽比、极窄沟槽开口的优异台阶覆盖率及精确薄膜厚度控制,实现了芯片制造工艺中关键尺寸的精度控制。HBM先进DRAM加工工艺和TSV加工工艺两个环节中,ALD是必不可少的核心设备之一。 ALD沉积TSV扩散阻挡层。TSV深孔制作完成后,需要进行电化学镀铜来完成金属沉积形成导线,由于铜化学性质活泼,在电镀前需要以ALD方式沉积WN形成扩散阻挡层,防止铜的电化学迁移导致物理失效。IMEC基于via middle的TSV制造工艺中,硅通孔采用了高保型ALD氧化层绝缘,厚度为 125nm ,获得了100%覆盖率。在单纯热工艺下,按顺序地驱动多种前驱体和反应体沉积WN作为扩散阻挡层,沉积温度375℃,覆盖率大于90%。 图19:IMECTSV工艺示意图 图20:ALD形成扩散阻挡层 ALD沉积DRAMHigh-KMetalGate。随着晶体管体积持续缩小,传统SiO栅极电介质受介电性能达到极限,在 45nm 内先进制程芯片中会产生隧穿现象从而导致漏电,从而造成晶体管可靠性下降。High-K材料相比传统SiO具有更强介电常数,可使栅极漏电流减少10倍左右,同时降低工作电压,提高材料理论性能。 图21:先进DRAM需要更高介电常数材料 图22:ALD形成High-K MetalGate 关键技术#3:2.5D+3D集成 借助TSV可以实现2.5D+3D的集成技术,HBM借助TSV技术实现多个DRAM之间的连通堆叠。2013年10月,HBM成为了JEDEC通过的工业标准,第二代HBM2于2016年1月成为了工业标准,NVIDIA的Tesla运算加速卡TeslaP100、AMD的Radeon Vega、Intel的Knightlanding都采用了HBM2。AMDRadeonVegaGPU中使用的HBM2,由8个8Gb芯片和一个逻辑芯片通过TSV和微凸点垂直互连,每个芯片内包含5000个TSV,在一个HBM2中,超过40000个TSV通孔。 图23:2.5D+3D先进封装集成 图24:AMDRadeon VegaGPU&HBM2横截面 台