核心观点 随着AI算力需求的不断提升,冯·诺依曼架构的存算性能失配问题日益显现,存算一体化技术应运而生。近存计算通过2.5D和3D堆叠技术有效融合计算与存储,提升内存带宽并降低访问延迟,成为提升芯片性能的主流方案。HBM和CUBE方案作为代表,能够广泛应用于高性能计算和边缘设备中,随着AI终端的普及和算力需求的加速,近存计算有望成为未来技术发展的关键趋势。 算力需求提升导致冯·诺依曼架构存算性能失配,近存计算将破局 冯氏架构以计算为中心,计算和存储分离,二者配合完成数据的存取与运算,在AI时代随算力持续提升,存算之间性能失配问题凸显。近存计算利用先进的封装技术,将计算逻辑芯片和存储器封装到一起,通过减少内存和处理单元之间的路径,实现高I/O密度,进而实现高内存带宽以及较低的访问开销。我们认为未来近存计算将成为AI时代芯片性能提升的主流方案。 HBM历经多次迭代,已成为高性能计算、数据中心主流近存计算架构 HBM采用TSV技术堆叠DRAM die以大幅提升I/O数,再配合2.5D先进封装制程,在维持较低内存频率的同时达到更显著的总通道宽度提升,兼具高带宽、高容量、低功耗。自2016年以来,HBM(高带宽内存)技术不断革新。HBM2 (2018)采用8层DRAM,提供256GB/s带宽,2.4Gbps传输速度,8GB内存。HBM2E (2020):将传输速度提升至3.6Gbps,内存增加至16GB。HBM3 (2022)将堆叠层数和管理通道增加,传输速度最高可达819GB/s,16GB内存。HBM3E将传输速度高达8Gbps,容量增至24GB。目前HBM已广泛应用于高性能计算、数据中心等领域。 AI终端持续落地,CUBE方案有望大放异彩 CUBE采用2.5D或3D封装,与主芯片SoC集成,通过高达1024个I/O实现超高带宽,可广泛适用于适用于可穿戴设备、边缘服务器设备、监控设备及协作机器人等高级应用。CUBE容量相对较小,适用于边缘端应用。以AI-ISP为例,AI-ISP中有很多灰色部分属于神经网络处理器(NPU),如果AI-ISP要实现大算力,就需要很大的带宽,或者是SPRAM。但是在AI-ISP上使用SPRAM的成本非常高,使用LPDDR4的话,因为需要4-8颗,因此成本亦较高。使用CUBE方案则可以缩小L3缓存,放大L4缓存,在降低芯片成本的同时提高带宽。未来随AI手机等AI端侧设备以及机器人等新型AI终端发展,CUBE有望成为端侧AI主流近存计算架构。 受益标的:北京君正、兆易创新、瑞芯微。 风险提示:下游需求不及预期,技术验证及迭代不及预期。 附图1:冯·诺依曼架构示意图 附图2:通信带宽的提升速度远低于计算提升的速度 附图3:AI时代算力需求增加,“存储墙”问题凸显 附图4:CUBE用于边缘计算且具备可扩展性 附图5:CUBE采用3D堆叠方案 附图6:CUBE具备多种优势 附图7:CUBE可降低功耗 附图8:CUBE有望成为LPDDR的高效替代性解决方案