AI硬件核心是算力和存力,HBM高带宽、低功耗优势显著,是算力性能发挥的关键。AI芯片需要处理大量并行数据,要求高算力和大带宽,算力越强、每秒处理数据的速度越快,而带宽越大、每秒可访问的数据越多,算力强弱主要由AI芯片决定,带宽由存储器决定,存力是限制AI芯片性能的瓶颈之一。AI芯片需要高带宽、低能耗,同时在不占用面积的情况下可以扩展容量的存储器。HBM是GDDR的一种,定位在处理器片上缓存和传统DRAM之间,兼顾带宽和容量,较其他存储器有高带宽、低功耗、面积小的三大特点,契合AI芯片需求。HBM不断迭代,从HBM1目前最新到HBM3E,迭代方向是提高容量和带宽,容量可以通过堆叠层数或增加单层容量获得提升,带宽提升主要是通过提升I/O速度。 HBM市场爆发式增长,海力士和三星垄断市场。目前主流AI训练芯片均使用HB M,一颗GPU配多颗HBM,如英伟达1颗H100使用5颗HBM3、容量80GB,2 3年底发布的H200使用6颗HBM3E(全球首颗使用HBM3E的GPU)、容量达1 44GB,3月18日,英伟达在美国加州圣何塞召开了GTC2024大会发布的B100和B200使用192GB(8个24GB 8层HBM3E),英伟达GPU HBM用量提升,另外AMD的MI300系列、谷歌的TPU系列均使用HBM。根据我们的测算,预计24年HBM市场需求达150亿美金,较23年翻倍。HBM的供应由三星、海力士和美光三大原厂垄断,22年海力士/三星/美光份额50%/40%/10%,海力士是HBM先驱,H BM3全球领先,与英伟达强绑定、是英伟达主要HBM供应商,三星紧随其后,美光因技术路线判断失误份额较低,目前追赶中,HBM3E进度直逼海力士。目前HB M供不应求,三大原厂已开启军备竞赛,三大原厂一方面扩产满足市场需求、抢占份额,海力士和三星24年HBM产能均提升2倍+,另外三大原厂加速推进下一代产品HBM3E量产以获先发优势,海力士3月宣布已开始量产8层HBM3E,3月底开始发货,美光跳过HBM3直接做HBM3E,2月底宣布量产8层HBM3E,三星2月底发布12层HBM3E。 先进封装大放异彩,设备和材料新增量。HBM采用3D堆叠结构,多片HBM DRA M Die堆叠在Logic Die上,Die之间通过TSV和凸点互连,先进封装技术TSV、凸点制造、堆叠键合是HBM制备的关键,存储原厂采用不同的堆叠键合方式,海力士采用MR-MUF工艺,三星和美光采用TCB工艺,MR-MUF工艺较TCB工艺效率更高、散热效果更好。HBM对先进封装材料的需求带动主要体现在TSV、凸点制造和堆叠键合/底填工艺上,带来对环氧塑封料、硅微粉、电镀液和前驱体用量等的提升,在设备端HBM带来热压键合机、大规模回流焊机和混合键合机等需求。 投资建议:HBM海外引领,核心标的如下:1)存储原厂:海力士/三星/美光;2)设备:BESI/ASMPT/Camtek等。大陆HBM产业链相关标的:1)存储:香农芯创/佰维存储/雅创电子等;2)设备:赛腾股份/精智达/新益昌等;3)材料:华海诚科/雅克科技/联瑞新材/兴森科技/深南电路等;4)封测:通富微电/深科技/长电科技等。 风险提示:行业需求不及预期的风险、大陆厂商技术进步不及预期、技术路线发生分歧、研报使用的信息更新不及时的风险,计算结果存在与实际情况偏差的风险。 1.HBM助力AI芯片性能发挥,市场需求爆发式增长 1.1HBM高带宽、低功耗优势显著,缓解内存墙问题 存储带宽提升速度慢于算力提升速度。大模型的训练可以简化为2步: 1)浮点运算(FLOPS),运行矩阵乘法,2)存储(带宽),等待数据或者计算资源。 过去大模型的训练时间主要受限于算力,英伟达等GPU厂商通过利用摩尔定律缩减制程、改变架构等方式,GPU的浮点运算能力大幅提高,但对应的存储带宽增速慢于GPU算力增长速度。如英伟达H100相比A100,FP32算力从19.5到66.9tflops提升3倍+,但带宽从2039GB/s到3.35TB/s仅提升1.5倍。 图表1:英伟达GPU浮点运算和带宽提升速度失衡 图表2:处理器和存储器的速度失配 AI芯片需要处理大量并行数据,要求高算力和大带宽,算力越强、每秒处理数据的速度越快,而带宽越大、每秒可访问的数据越多,算力强弱主要由AI芯片决定,带宽由存储器决定,存力是限制AI芯片性能的瓶颈之一。AI芯片需要高带宽、低能耗,同时在不占用面积的情况下可以扩展容量的存储器。 上世纪40年代开始计算机使用冯诺伊曼架构——存算分离,即处理器和存储器相互独立,两者通过总线连接。 1)存算分离,数据存算间传输造成延迟。处理器从外部存储中调取数据,计算完成后再传输到内存中,一来一回都会造成延迟。 2)数据在多级存储间传输。为了提升速度,冯诺依曼架构对存储进行分级,越往外的存储介质密度越大、速度越慢,越往内的存储密度越小,速度越快,因此数据需要在多级存储之间搬运,能耗大。通常第一级存储是速度最快、容量低的以SRAM为形式的片上缓存,第二级是传统DDR。 3)存储制程推进慢于逻辑。目前DRAM制程最先进仍在10- 15nm 左右,而逻辑制程已进入 5nm 以下,主要是因存储器制程缩小难度更大。 以上三点带来“存储墙”和功耗墙问题,影响处理器性能:1)数据的传输量小、速度慢,造成延迟,2)数据的传输功耗大(读取功耗随着存储器密度增大而增大),因此存储器的性能发展方向为更大带宽、更低功耗。 图表3:存储的数据的传输速度慢 图表4:数据的传输功耗大 存算一体可有效克服冯诺依曼架构,迎合AI时代提升算力能效的需求。存算一体是一种新的架构,其核心理念是将计算和存储融合,降低“存储墙”问题,实现计算能效的数量级提升。从广义而言,存算一体可分为三种:近存计算(PNM)、存内处理(PIM)、存内计算(CIM),狭义的存算一体主要指存内计算。 1)近存计算PNM,通过芯片封装和板卡组装的方式,将存储和计算单元集成,提升计算能效。PNM可分为存储上移以及计算下移。存储上移是指采用先进封装技术将存储器向处理器靠近,增加计算和存储间的链路数量,增加带宽,典型产品为HBM(高带宽内存),HBM在英伟达H200、H100等AI训练GPU均有应用。计算下移是指利用板卡集成技术,在存储设备引入计算引擎,减少远端处理器负担。 2)存内处理PIM,核心是存储器具备一定计算能力。芯片制造过程中,将存储和计算单元集成在同一颗die上,使得存储器本身具备一定计算能力。与近存计算相比,“存”与“算”之间的距离更为紧密。目前的存内处理方案主要通过在内存(DRAM)芯片中实现部分数据处理,其中典型的产品形态包括HBM-PIM和PIM-DIMM,HBM-PIM与HBM的不同之处在于PIM芯片上的每个存储块内都包含一个内部处理单元。存内处理技术可应用于多种场景,包括语音识别、数据库索引搜索、基因匹配等。 3)存内计算CIM,真正意义上实现了同一个晶体管同时具备存储和计算能力。即在芯片设计过程中,存储电路同时具备存储和计算能力,使得计算效能实现数量级提升。典型产品为存内计算(IMC,In-memory Computing)芯片。典型场景是为AI算法提供向量矩阵乘的算子加速,目前已在神经网络领域开展大量研究,如卷积神经网络(Convolutional Neural Network, CNN)等。 图表5:存算一体类别 HBM是近存算一体的一种,定位在片上缓存LLC和传统DDR中间,弥补带宽缺口,兼顾带宽和容量。 HBM定位在CPU/GPU片上缓存(Last Level Cache,LLC,通常是SRAM)和DRAM之间,弥补处理器高带宽需求与主存储器最大带宽供应能力之间的带宽缺口,容量大于片上存储、小于传统DDR,但速度小于片上存储、大于传统DDR,成本低于片上存储、高于传统DDR。 以成本为例,1MB SRAM价值$5~$10,1GBHBM价格$10-$20,根据集邦咨询 ,2月1GB DDR4合约价$1.95( 历史最高$4.1),1GB=1024MB,从单位存储成本看,SRAM的成本是HBM的500倍+、普通DRAM的1000倍+,HBM常备是普通DRAM的5倍+。 从速度来看,在AI应用中,每个SoC的带宽需求(尤其是在训练应用中)都会超过几TB/s,但常规主存储器无法满足这个要求,具有3200Mbps DDR4 DIMM的单个主存储器通道只能提供25.6GB/s的带宽,具有4800Mbps DDR5 DIMM的单个主存储器通道提供38.4GB/s,即使是具有8个存储器通道的最先进的CPU平台,DDR4和DDR5对应速度也只能达到204.8GB/s、307GB/s,围绕单个SoC的4个HBM2堆叠可提供大于1TB/s的带宽,因而能够消除带宽差距。 图表6:HBM定位在片上存储和普通DRAM之间 图表7:HBM兼顾带宽和容量 HBM用于AI训练卡,GDDR用于AI推理卡。JEDEC(固态技术协会,微电子产业的领导标准机构)定义并开发了以下三类DRAM标准,以帮助设计人员满足其目标应用的功率、性能和尺寸要求。 1)标准型DDR:Double Data Rate SDRAM,针对服务器、云计算、网络、笔记本电脑、台式机和消费类应用程序,允许更宽的通道宽度、更高的密度和不同的外形尺寸。 2)LPDDR:Low Power Double Data Rate SDRAM,LPDDR具有体积小、功耗低的优势,可以减小无线电子产品的体积,低功耗可延长使用时间,在智能手机、平板等应用中使用广泛。 3)GDDR:Graphics Double Data Rate SDRAM,适用于具有高带宽需求的计算领域,通常称为显存,例如图形相关应用程序、数据中心和AI等,与GPU配套使用,GDDR又可分为普通GDDR和HBM,普通GDDR采用平面结构,HBM采用3D堆叠结构,普通GDDR多用在AI推理卡中,HBM用于AI训练卡或少数高端的AI推理卡。因此,推理芯片如英伟达A100、H100通常使用HBM配套,而L4、A16等均配套GDDR,高端推理卡可根据要求配套HBM或GDDR,如A30、A40。 图表8:HBM是DRAM中的一种 图表9:英伟达和AMD数据中心GPU配套的显存 HBM相较其他DRAM有高带宽、低功耗、面积小的三大特点。一方面通过增加引脚数量达到每颗HBM 1024bit内存总线(即I/O),以实现更高带宽,另一方面缩短数据的传输路径,降低功耗,HBM走线长度以毫米为单位,而GDDR和DDR均以厘米为单位。 GDDR VS HBM:1)HBM容量易扩展、占用面积小:HBM采用TSV硅通孔技术3D堆叠,通过增加层数来扩展容量,GDDR为2D结构,因此HBM在实现相同容量下,占用的面积更小。2)HBM功耗低:GDDR采用正常2D结构,不需要中介层连接,总线位宽小,主要是通过体现数据的传输速率来提升位宽,因为数据的传输速率快,因此功耗也高于HBM,而HBM用TSV技术实现走线更短,同时I/O数据的传输速度慢,功耗低。3)HBM带宽大:HBM通过增加位宽实现高带宽。4)HBM制造成本高:HBM采用额外的TSV、Bumping等技术,对封装要求高,损耗也更高。 图表10:HBM高带宽 图表11:HBM低能耗 图表12:GDDR是2D结构,HBM是3D结构 图表13:256GB/s带宽对GDDR6和HBM2的性能要求 图表14:HBM的高带宽优势明显 图表15:HBM占用的面积小 HBM不断迭代,迭代方向为增加容量和带宽,目前最高层数为12层。 海力士2014年推出全世界第一颗HBM,2018年推出HBM2,后续每隔两年推出新一代HBM,目前最新量产的是HBM3,预计2024年量产HBM3E,原厂加速研发。 从单颗容量看,堆叠层数和单层DRAM容量均有所增加,HBM1仅堆叠4层2Gb的DRAM,实现单