证券研究报告 行业研究|行业专题研究|电子 端侧存算一体迎来快速发展 请务必阅读报告末页的重要声明 2024年12月28日 证券研究报告 |报告要点 传统的冯·诺依曼架构以计算为核心,处理器与存储器之间的物理分离导致了大规模数据频繁迁移,此架构面临着“存储墙”、“功耗墙”及“算力墙”等严峻挑战,难以满足AI应用对于低时延、高能效以及高可扩展性的迫切需求。存算一体是一种新的计算架构,有望彻底解决传统冯·诺依曼架构的“存储墙”问题,极大提高计算能耗。目前,存算一体已经完成了从学术界到工业界的转化,基于存算一体的产品在国内外都有具备量产的能力的公司,建议关注存算一体商业化带来的投资机遇。 |分析师及联系人 郇正林 王海 SAC:S0590524110001SAC:S0590524070004 请务必阅读报告末页的重要声明1/12 行业研究|行业专题研究 2024年12月28日 电子 端侧存算一体迎来快速发展 投资建议: 强于大市(维持) 上次建议:强于大市 相对大盘走势 电子 40% 沪深300 17% -7% -30% 2023/122024/42024/82024/12 相关报告 1、《电子:从续航问题看AI眼镜迭代方向》 2024.12.22 2、《电子:半导体制裁落地,产业链国产化加速》2024.12.08 扫码查看更多 存算一体解决多项技术瓶颈 传统的冯·诺依曼架构以计算为核心,处理器与存储器之间的物理分离导致了大规模数据频繁迁移,从而限制了AI芯片的整体性能。因此,传统芯片架构面临着“存储墙”、“功耗墙”及“算力墙”等严峻挑战,难以满足AI应用对于低时延、高能效以及高可扩展性的迫切需求。存算一体是一种新的计算架构,核心是将存储单元与计算单元合为一体,省去计算过程中数据搬运环节,消除其带来的功耗和延迟,有望彻底解决传统冯·诺依曼架构的“存储墙”问题,极大提高计算能效。 存内计算是存算一体主要技术方案 根据存储与计算的距离远近,广义的存算一体技术方案分为近存计算、存内处理和存内计算三类,狭义的存算一体即指存内计算,占据主要市场份额。根据QYResearch数据,2022年全球存内计算市场规模在全球市场的占比接近88%,预计至2029年全球占比达到77%,市场或将由存内计算占据主导地位。此外,近内计算、近存计算的份额均有比较大幅度的提升。当前NORFLASH、SRAM等传统器件相对成熟,可率先开展存内计算产品化落地推动。 小算力领域是当前主要应用场景 小算力场景是主要应用场景。应用场景按照算力大小进行划分,包含边缘/端侧小算力场景和云端推理大算力场景。在两大分类下,分别对应了五类细分场景,边缘 /端侧小算力包括智能可穿戴设备、智能安防、移动终端、AR/VR;大算力场景目前主要是自动驾驶。从产品市场应用情况来看,小算力场景是目前最大的应用场景根据QYResearch,2022年市场规模为0.39亿美元,约占整体市场的89.30%,预计2029年有望达到233.96亿美元,占比达到76.39%。 国产企业有望率先实现端侧应用落地 现阶段存算一体技术主要应用在端侧小算力场景,Insights预计2025年基于存算一体的小算力芯片中国市场规模约为125亿元,应用场景从麦克风、智能手表和TWS耳机拓展到智能安防、移动终端和AR/VR等(从语音识别、唤醒到视觉处理)。目前一些头部公司已经实现存算一体芯片量产,其余头部公司均已完成多次流片,其中至少有2-3家已进入量产前的测试阶段。 投资建议:关注存算一体化产业趋势 存算一体芯片行业处于大规模量产前夕,重点关注布局存算一体的NORFLASH企业。在考虑成本下,MCU+算法有望成为存算一体芯片的短期替代方案,关注布局MCU+算法的相关企业,建议关注:兆易创新等。2025CES全球消费电子展将于2025年1月7-10日在美国举办,关注AI端侧创新带来的发展机遇,重点关注AI眼镜、AI耳机、XR等产业链。 风险提示:存算一体行业商业化不及预期;终端需求恢复不及预期;产业链自主可控进展不及预期。 正文目录 1.存算一体迎来产业化拐点4 1.1存算一体解决多项技术瓶颈4 1.2端侧存算一体应用率先量产落地6 2.投资建议:关注存算一体产业化趋势10 2.1关注存算一体产业链10 2.2关注AI端侧产业链10 2.3关注半导体自主可控产业链10 3.风险提示11 图表目录 图表1:存储墙:存储计算“剪刀差”4 图表2:功耗墙:内存与处理器之间数据传输的功耗4 图表3:存算一体技术方案分类5 图表4:2022年全球不同产品类型存算一体技术市场份额5 图表5:2029年全球不同产品类型存算一体技术市场份额预计5 图表6:存内计算器件对比分析6 图表7:存算一体芯片行业发展趋势7 图表8:不用领域终端存算一体芯片应用情况7 图表9:全球存算一体芯片市场规模(亿美元)9 图表10:小算力场景是主要应用领域9 图表11:中国存算一体芯片市场规模(亿元)9 1.存算一体迎来产业化拐点 1.1存算一体解决多项技术瓶颈 传统的冯·诺依曼架构以计算为核心,处理器与存储器之间的物理分离导致了大规模数据频繁迁移,从而限制了AI芯片的整体性能。因此,传统芯片架构面临着“存储墙”、“功耗墙”及“算力墙”等严峻挑战,难以满足AI应用对于低时延、高能效以及高可扩展性的迫切需求。存算一体是一种新的计算架构,核心是将存储单元与计算单元合为一体,省去计算过程中的数据搬运环节,消除其带来的功耗和延迟,有望彻底解决传统冯·诺依曼架构的“存储墙”问题,极大提高计算能效。 图表1:存储墙:存储计算“剪刀差”图表2:功耗墙:内存与处理器之间数据传输的功耗 资料来源:中国移动《存算一体白皮书》、17AI,国联证券研究所资料来源:中国大学MOOC,国联证券研究所 存算一体技术方案分为三类。根据存储与计算的距离远近,广义的存算一体技术方案分为近存计算、存内处理和存内计算三类,狭义的存算一体即指存内计算。近存计算仍是存算分离架构,本质上计算操作由位于存储外部、独立的计算单元完成,其技术成熟度较高,主要包括存储上移、计算下移两种方式。存内处理是在芯片制造过程中,将存和算集成在同一个晶粒中,使存储器本身具备了一定算的能力;本质上仍是存算分离,相比于近存计算,“存”与“算”的距离更近。存内计算在芯片设计过程中,不再区分存储单元和计算单元,真正实现存算融合;本质是利用不同存储介质的物理特性,对存储电路重新设计,使得存储电路同时具备计算和存储能力。 图表3:存算一体技术方案分类 分类 特征 方案图例 近存计算 计算芯片与存储芯片分离;计算部分通过存储芯片外部的计算芯片完成,将数据靠近计算单元,从而缩小数据移动的延迟和功耗。 存内处理 计算单元和存储单元位于同一芯片中,但电路设计是分离的;计算部分由存储器内部的独立计算单元完成。 存内计算 存储单元和计算单元完全融合;没有独立的计算单元,直接通过在存储器颗粒上嵌入算法,由存储器芯片内部的存储单元完成计算操作。 资料来源:中国移动《存算一体白皮书》,国联证券研究所 存内计算占据主要市场份额。根据QYResearch数据,2022年全球存内计算市场规模在全球市场的占比接近88%,同时预计至2029年全球占比将达到77%,市场或由存内计算占据主导地位。此外,存内处理、近存计算的份额有望实现比较大幅度的提升。 图表4:2022年全球不同产品类型存算一体技术市场份额图表5:2029年全球不同产品类型存算一体技术市场份额预 计 8% 15% 77% 1% 11% 88% 存内计算近存计算存内处理 存内计算近存计算存内处理 资料来源:QYResearch,国联证券研究所资料来源:QYResearch,国联证券研究所 存内计算电路可基于易失性存储器和非易失性存储器件实现。易失性存储器在设备断电之后数据丢失,如SRAM等。非易失性存储器在设备断电后数据可保持不变,如 NORFLASH、RRAM、MRAM、PCM等。整体来看,五种主流存储器件各有优缺点,产品化选择时需综合考虑器件的成熟度、存储密度、寿命、读写性能、能耗等方面指标。当前NORFLASH、SRAM等传统器件相对成熟,可率先开展存内计算产品化落地推动。 图表6:存内计算器件对比分析 器件 SRAM NORFLASH RRAM MRAM PCM 易失特性 易失 非易失 非易失 非易失 非易失 多值存储 否 是 是 否 是 现有工艺节点 5nm 28nm 28nm 16nm 28nm 理论工艺极限 2nm 14nm 5nm 5nm 5nm 单比特存储面积(F²/bit¹) ~300 ~7.5 20~40 ~30 ~24 读写次数 无限 10⁶ 10⁸ ~10¹⁵ 10⁸ 应用场景 云侧和边侧的推理和训练 边侧和端侧的推理 云侧、边侧和端侧的推理 云侧和边侧的推理和训练 云侧、边侧和端侧的推理 资料来源:中国移动《存算一体白皮书》,国联证券研究所 1.2端侧存算一体应用率先量产落地 存算一体目前处于小规模量产阶段,有望于2025年进入大规模量产。存算一体已经完成了从学术界到工业界的转化,基于存算一体的产品在国内外都有具备量产的能力的公司。下一阶段(2025年后),基于存算一体的产品将聚焦如何实现从初步商业化到大规模商业化的跃迁。在大规模量产阶段,存算一体产业链生态初步显现,产业链各环节配合存算一体技术的意愿强烈;芯片大厂出现收购动作;存算一体的头部企业逐渐形成技术壁垒。 图表7:存算一体芯片行业发展趋势 资料来源:Insights,国联证券研究所 相较于传统计算模式,存内计算在极低功耗和极大算力场景中都能形成绝对优势。根据insights,在16TOPS以上节点的大算力场景中,存内计算兼具算力高和功耗低的优势,能够以更低的成本实现更大的算力。在低功耗场景中,基于存算一体的芯片可以完成极低功耗的深度学习运算,适用于可穿戴设备、智能安防、移动终端等领域,推动计算任务在终端设备中的高效实现。 图表8:不用领域终端存算一体芯片应用情况 分类 算力 特征 优势 芯片技术是智能可穿戴设备发展的核心,芯片的技术成熟度会影响可穿戴设备的性 可穿戴设备总是处于工作、待机 能;存算一体技术能够减少不必要的数据 智能可穿戴设备 2MB-100GOPS 或可存储状态。对于低功耗需求强烈,待机时间是产品竞争力的 搬运,功耗相较传统的芯片降低10-20倍,符合可穿戴设备对低功耗的需求。在 核心。 极低功耗的基础上,存算一体在人工智能加速上比当前芯片的效率提升几十到几百倍不等。 偏视觉类的垂直场景,算法已相 智能安防(智能摄像机) 32MB-16TOPS 对稳定,对于初创公司来讲能够以较小的成本突破传统大厂的生 存算一体的高并行计算能力使得计算的实时性比传统芯片高出很多。 态壁垒。 移动终端 64MB-32TOPS 云端推理因网络延迟带来用户体验的问题;受制于手机电池,对芯片的功耗有严格限制。 存算一体在视觉信号处理上可以达到端侧产品低功耗要求。 AR需要处理目标识别、定位、 轻薄是AR/VR眼镜的必然趋势。在电池技 跟踪和建模等人工智能和计算机 术没有突破的情况下,芯片功耗需要大幅 视觉问题,且计算量大。此外, 下降,因此存算一体非常适合嵌入到SoC AR/VR 128MB-64TOPS AR/VR眼镜中的电池小、散热差,对低功耗都有较高的要求。 当中;AR/VR场景中会涉及较多的人工智能交互(如语音识别,手势识别),存算 因此,在SoC设计方法上需要做 一体在计算效率和实时性上的优势也可以 出改变以同时满足高性能和低功 发挥出来,为用户提供更真实流畅的交互 耗的需求。 场景。存算一体技术低功耗和低延迟的特性能够很好地匹配自动驾驶的需求;存算一体技 自动驾驶 512MB- 256TOPS 对芯片的散热、实时性及可靠性有高要求。 术可以在较低的成本下把算力做大;自动驾驶场景的算法演