您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中泰证券]:【中泰电子】AI系列之存储:近存计算3D DRAM,AI应用星辰大海 - 发现报告
当前位置:首页/行业研究/报告详情/

【中泰电子】AI系列之存储:近存计算3D DRAM,AI应用星辰大海

信息技术2025-02-20-中泰证券大***
【中泰电子】AI系列之存储:近存计算3D DRAM,AI应用星辰大海

证券研究报告 报告日期:2025年2月20日 【中泰电子】AI系列之存储: 近存计算3DDRAM,AI应用星辰大海 分析师: 王芳S0740521120002 杨旭S0740521120001 1 目录 一、产业趋势:DRAM从2D到3D,存算一体趋势确立 二、封装级3DDRAM:近存计算,高带宽、低功耗契合AI场景需求 三、晶圆级3DDRAM:突破制程瓶颈,目前多种方案探索中四、投资建议 五、风险提示 2 目录 一、产业趋势:DRAM从2D到3D,存算一体趋势确立 112DDRAM制程瓶颈凸显,3D是大趋势 12存内计算难度大,近存计算和存内处理是重要方向 3 112DDRAM制程瓶颈凸显,3D是大趋势 DRAM是易失性存储器,与CPUGPU等计算芯片直接交互,可以快速存储每秒执行数十亿次计算所需的信息。 DRAM三构成:1)存储单元(Cell),占据5055面积:存储单元是DRAM芯片存储数据的最小单元,每个单元存储1bit数据(二进制0或1),单颗DRAM芯片的容量拓展主要是通过增加存储单元的数量实现(即提高单位面积下的存储单元密度),存储单元基本占据了DRAM芯片5055的面积,是DRAM芯片最核心的组成部分。1个存储单元由1个晶体管和1个电容器构成(1T1C结构),晶体管控制对存储单元的访问,电容器存储电荷来表示二进制0或1。2)外围逻辑电路(Core),占据2530面积:由逻辑晶体管和连接DRAM各个部分的线路组成,从存储单元中选择所需存储单元,并读取、写入数据,包括感应放大器(SenseAmplifiers)和字线解码器(WordLineDecoders)等结构,如感应放大器被附加在每个位线的末端,检测从存储单元读取非常小的电荷,并将信号放大信号,强化后的信号可在系统其他地方读取为二进制1或0。3)周边线路 (Peripheral),占据20左右面积:由控制线路和输出线路构成。控制线路主要根据外部输入的指令、地址,让DRAM内部工作。输出输入线路负责数据的输入(写入)、输出(读取)。 DRAM工作原理:存储电容器会泄漏电荷,因此需要频繁进行刷新(大约每32毫秒一次),以维持存储的数据。每次刷新都会读取存储单元的内容,将位线上的电压提升至理想水平,并让刷新后的值流回电容器,刷新完全在DRAM芯片内部进行,没有数据流入或流出芯片。这虽最大限度地减少了浪费的电量,但刷新仍会占据DRAM总功耗的10以上。 图表:DRAM结构图图表:DRAM三个构成的占比 电容器 DRAM模组DRAM芯片 晶体管 4 来源:AMAT官网、Semianalysis、36氪,中泰证券研究所 112DDRAM制程瓶颈凸显,3D是大趋势 容量、带宽和功耗是DRAM三大关键参数。 1)容量:指存储数据的多少,存储容量最小单位是1bit,即表示存储单个二进制(0或1),另外有B、KB、MB、GB、TB等存储容量单位,关系如下:1B(Byte,B)8bit,1KB1024B,1MB1024KB,1GB1024MB,1TB1024GB。单位面积下,存储单元数量越多、存储容量越高,制程是决定单位面积下存储容量的主导因素。 2)带宽:指每秒钟的数据吞吐量,单位TBs、GBs,内存带宽最大时钟速频率MHz总线宽度bits每时钟数据段数量8。 3)功耗:数据的传输需要的功耗,功耗越低越好。 DRAM制程微缩,带来DRAM成本下降和容量密度提升。 图表:DRAM单位容量价格处于下降趋势图表:DRAM通过制程迭代提升容量密度 来源:Techinsights、AIIMPACTS,中泰证券研究所5 112DDRAM制程瓶颈凸显,3D是大趋势 DRAM此前符合摩尔定律,后面摩尔定律失效,制程微缩放缓。 DRAM通过制程微缩(晶体管、电容器、逻辑电路等微缩)实现单位面积内更多的存储单元,即实现单位面积下更高存储容量。 19702005年,DRAM以每颗芯片的容量每3年增加4倍的速度升级,后续迭代速度不断放缓,带来单位密度提升速度放缓,存储 单元微缩放缓。 图表:DRAM总位元出货量DRAM芯片出货量图表:DRAM容量升级的速率放缓 图表:2DDRAM的制程微缩和单位密度提升速度放缓图表:DRAM存储单元面积(CellSzie)微缩放缓 来源:ICKnowledge、IEEE、Techinsights,中泰证券研究所6 DRAM制程微缩难度大,目前制程迭代逼近10nm(1nm),必须使用EUV光刻机。 目前DRAM最新量产制程是1b,1012nm左右:DRAM制程迭代速度放缓,10nm级别(1020nm),使用1x、1y、1z、1a、1b和1c指代,另外美光使用罗马字母1、1、1对应1a、1b和1c。目前三星、海力士和美光三大家目前量产制程是1b(1)制程,近两年将开始迭代1c(1)制程。 EUV的使用:EUV是目前光刻机的天花板,2020年三星在1z节点开始首次使用EUV光刻机,后续的制程沿用EUV,2021年海力士在1a节点开始使用EUV光刻机,后续制程继续沿用,美光在1c(1)节点将使用EUV。 112DDRAM制程瓶颈凸显,3D是大趋势 图表:DRAM制程迭代 来源:Techinsights,Semiconductordegest,中泰证券研究所 图表:三大家EUV光刻机使用情况 节点 三星 海力士 美光 1x 1619nm Testvehicle 1y 1416nm 1z 1214nm 1a(1) 约13nm 1b(1) 1012nm 1c(1) 约10nm,1的增强版 7 112DDRAM制程瓶颈凸显,3D是大趋势 DRAM制程微缩难度:微缩电容器和感应放大器面临挑战。 三星在1z、海力士在1a工艺中采用了极紫外光刻(EUV),也未能显著提升密度。它们面临的主要挑战在于电容器与感应放大器。 1)电容器: 电容器微缩,电容漏电风险、干扰问题变严重。DRAM依赖电容器来存储电荷,但当电容器变得更小,电荷泄漏的风险增加,从而导致数据的可靠性下降。为了解决这个问题,工程师们需要开发新的材料和设计方法,以减少漏电率并提高数据保持能力。另一个重大挑战是干扰问题。在高集成度的芯片上,不同存储单元之间的电场和磁场干扰变得更加频繁,这可能导致数据错误或损坏。为了应对这一问题,需要更加复杂的错误校正机制和抗干扰设计,这进一步增加了DRAM开发的难度。 电容器制作难度极大。首先,电容器的图案化要求非常高,因为孔必须紧密排列,且具有极为良好的临界尺寸和覆盖控制,以便接触下方的访问晶体管并避免出现桥接或其他缺陷。电容器与晶体管极为相似,已缩小至纳米级宽度,不过其纵横比也非常大,大约1000纳米高,而直径却只有数十纳米纵横比接近1001,因此蚀刻出又直又窄的孔轮廓极为困难。此外,还需要更厚的硬掩模来实现更深的蚀刻,因为更厚的掩模需要更厚的光刻胶。接下来,必须在整个孔轮廓的壁上沉积几纳米厚的多个无缺陷层,以形成电容器。另外电容器即使微缩,电容器也需要存储一定 量的电荷,如果电荷过少,“1”和“0”的区别就会变得模糊,会对存储功能产生影响。 2)感应放大器:必须进行面积缩放以匹配位线的缩小,感应放大器变得更不敏感,并且随着尺寸变小而更容易出现变化和泄漏。同时,较小的电容器存储的电荷较少,读取变得更加困难。 来源:semianalysis、AMAT官网,中泰证券研究所 图表:DRAM存储单元结构 8 112DDRAM制程瓶颈凸显,3D是大趋势 NAND存储单元结构简单,已率先实现晶圆级3D结构,通过层数堆叠来提升容量。 NAND存储单元仅由一个晶体管构成,相对DRAM、结构简单。NAND从2014年开始进行晶圆级层面的从2D到3D的转换,成功解决了2DNAND在增加容量的同时性能降低的问题,实现容量、速度、能效及可靠性等全方位提升。NAND的2D平面制程微缩基本停留在2017年的1415nm左右,后续的迭代升级是层数堆叠。 2019年,3DNAND的渗透率为726,已远超2DNAND,预计2025年3DNAND将占闪存总市场的975。2024年11月21 日海力士宣布321层NAND样品,自2025年上半年开始交货,此前海力士量产产品为238层。 DRAM存储单元包含垂直方向的电容器,制程微缩难度高于NAND,同时晶圆级3D需要存储单元结构创新,难度大。 DRAM存储单元由1个晶体管和1个电容器构成,比NAND的存储单元结构更复杂,电容器增加了制程微缩难度,因此在2DNAND还在通过制程微缩时,DRAM的制程就落后于NAND,如2015年2DNAND进入1718nm,而DRAM在2030nm。 DRAM具有较大的垂直方向电容器,电容器很高且难以分层堆叠,因此需要采用将电容器水平放置等创新的存储单元结 构或者采用无电容DRAM来实现晶圆级3D,制造难度大幅提升。 图表:DRAM和NAND的存储单元结构 图表:DRAM、NAND和Logic的制程迭代 9 来源:三星、ASML2018Presentation,中泰证券研究所 112DDRAM制程瓶颈凸显,3D是大趋势 DRAM3D化趋势已现,封装级先行,晶圆级在研发阶段。 3DDRAM分为封装级和晶圆级,封装级3DDRAM属于近存计算,突破内存墙瓶颈,已商业化量产,晶圆级3DDRAM突破2DDRAM制程微缩瓶颈,难度更大,目前仍处于研发阶段。 封装级3DDRAM:指通过封装工艺将多颗2DDRAMDie进行3D堆叠,HBM目前最高堆叠12层DRAMDie,每层Die之间通过TSVMicrobump等先进封装工艺实现电气连接,最后实现在单位面积下更高的存储容量密度。然后将封装级3DDRAM继续通过封装工艺与逻辑芯片封装在一起,实现近存计算,性能上实现更高的带宽、更低的功耗,缓解内存墙问题,契合AI芯片要求。典型产品如HBM、华邦CUBE和WoW3D堆叠DRAM。 晶圆级3DDRAM:在晶圆结构层面实现3D结构,突破2DDRAM制程微缩瓶颈、实现更高容量密度,目前各家厂家处于探索阶段。 图表:封装级3DDRAM:HBM结构图图表:晶圆级3DDRAM结构图 图表:封装级别3DDRAM的分类 与计算芯片的封装形式 芯片之间的连接 封装级3DDRAM HBM 25D TSVMicrobump CUBE 3D TSVMicrobump WOW3D堆叠DRAM 3D TSV混合键合 10 来源:NEO,中泰证券研究所 12存内计算难度大,近存计算和存内处理是重要方向 存储速度滞后于计算器速度,AI时代存储带宽制约算力芯片性能发挥。 在过去二十年,处理器性能以每年大约60的速度提升,内存性能的提升速度每年只有9左右。结果长期下来,不均衡的发展速度造成了当前的存储速度严重滞后于处理器的计算速度。 虽然多核(例如CPU)众核(例如GPU)并行加速技术提升算力,AI时代处理器计算技术能力大幅提升,同时大型Transformer模型的参数数量呈指数级增长,每两年增加410倍,而单个GPU内存仅以每两年2倍的速度扩展。从峰值算力看,峰值算力在过去20年中增加了60000倍,而DRAM带宽增加了100倍,存储和计算的互连带宽增加了30倍。 随着近几年云计算和AI应用发展,面对计算中心的数据洪流,存算分离架构下数据搬运慢、搬运能耗大等问题成为了计算的关键瓶颈,“存储墙”问题更加显著。 图表:处理器和存储器速度失衡图表:19602020年人工智能计算复杂度变化 来源:elecfans,智东西,中泰证券研究所11 12存内计算难度大,近存计算和存内处理是重要方向 图表:模型参数量增长趋势(红线) VS单GPU内存扩展趋势(绿线) 图表:不同代的内存带宽以及峰值算力 来源:Medium,中泰证券研究所12 传统存算分离架构带来存储墙问题。 上世纪40年代开始计算机使用冯诺伊曼