ComputeinMemory 存算一体芯片 QbitaiIndustryInsight 深度产业报告 •技术篇 •产业篇 •展望篇 量子位科技深度产业报告——存算一体芯片 引言 2021年,全球半导体产业销售总额共计5,559亿美元,其中,中国以1,925亿美元的半导体销售额成为全球规模最大的区域市场。在这个千亿美元市场中,有价值数亿元的高端制造设备,也有价格几元到几十元不等的芯片。 今天,全球半导体市场的竞争格局非常稳定,在产业链各环节都由市场份额占绝对优势的企业主导,这些企业凭借着极高的技术壁垒,在击退新玩家的同时也掌握着行业的发展动向。 半导体产业“牵一发而动全身”的特性导致新玩家很难凭一己之力改变行业内的某些规则,改变往往来自应用侧的新需求。正是由于这个特性,我们所看到的半导体行业的创新案例往往具备更高的可靠性。 半导体行业随着应用侧技术的发展而演进,不断往下做的先进工艺正是因为人工智能的发展,对于计算规模和计算速度的要求在不断提高。当先进工艺走到7nm以下,芯片在物理层面的缺点逐渐显现,随之而来的是持续走高的成本投入。 由于当前几乎所有的芯片大厂都将主要精力放在先进工艺研发上,产业链上中下游的配合方也都聚焦先进工艺展开相应研发。然而,在突破1nm极限后,摩尔定律将由此失效,基于冯诺依曼架构的芯片的技术发展将不会再依托先进工艺。 在技术快要走到极限之时,必然会提前“掉头”的现象,在半导体领域,“掉头”意味着在芯片从0到1的各个环节寻找新的方法突破瓶颈。 芯片创新包括先进封装技术,新型架构,新材料等各个方向,我们关注到基于存算一体架构的芯片研发。在采访了部分行业头部机构后,我们希望可以还原存算一体技术的本真,并且能够一探这一领域的真实价值。 感谢以下机构与个人参与深度访谈(按照首字母排序): 达摩院、后摩智能、九天睿芯、苹芯科技、千芯科技、燕博南、知存科技 2 量子位科技深度产业报告——存算一体芯片 关键结论 •存算一体芯片的关键在于存算一体架构,其核心是电路设计革新。 •目前尚未形成完成的产业链生态,尤其在软件层面缺乏相应的研发公司配合完善技术链条。 •在产业界和资本一致看好存算一体的现状下,完整的技术链条、对客户需求的把握以及全面的人才储备是初创公司在业内保持竞争力的关键,也是新玩家进入这个赛道需要具备的实力。 •如果将基于存算一体的芯片放在半导体产业的大背景下,其尚处在发展的早期阶段,在这个阶段业界呈现出一种百花齐放的态势。 •基于存算一体的产品从初步商业化到大规模商业化的过程中,主要有三点驱动因素:新型存储器的发展,来自应用侧的需求以及产业侧的配合。 •2025年存算一体将迎来商业化转折点,应用场景从麦克风、智能手表和TWS耳机拓展到智能安防、移动终端和AR/VR等。 •在产业界和资本一致看好存算一体的现状下,完整的技术链条、对客户需求的把握以及全面的人才储备是初创公司在业内保持竞争力的关键,也是新玩家进入这个赛道需要具备的实力。 •新玩家在选择是否进入这个赛道时,首先要明确目标市场,在此基础上要厘清技术与需求的匹配度,真正理解客户的痛点以及针对这个痛点,判断存算一体是否有足够的优势吸引客户。 3 量子位智库后续将持续关注存算一体领域,输�独家内容与专题活动。如需与分析师进一步交流相关信息、加入存算一体芯片高端实名制社群、探讨相关合作等,可注明身份来意扫码添加量子位智库小助手及分析师本人。 量子位科技深度产业报告——存算一体芯片 目录 技术篇 1.1技术简介 1.2技术价值 1.3技术路径 1.4关键技术 1.5技术挑战与展望 产业篇 2.1行业现状与驱动力 2.2市场价值 2.3市场规模 2.4产业链分布 2.5主要玩家及中外竞争对比 2.6进入门槛 展望篇 3.1展望结论 4 技术篇 1.1技术简介 •研究背景 人工智能芯片是人工智能技术发展的硬件基础,在人工智能发展三大要素,数据、算法和算力中,算力主要由人工智能芯片支撑。人工智能芯片目前有两种发展路径:一种是在传统计算架构下的AI加速器/计算卡,主要以GPU,FPGA,ASIC等为代表;另一种路径是颠覆传统的冯诺依曼架构,采用新的架构来提升计算能力,以存算一体芯片为代表。 当前,摩尔定律已逼近极限,依靠器件尺寸微缩来提高芯片性能的技术路径在功耗和可靠性方面都面临巨大挑战。传统的冯诺依曼架构已无法适应如今AI计算对算力和低功耗的需求,存算一体芯片架构是需求变化中催生出的新型计算架构,在算力和能效比方面相比冯诺依曼架构具有绝对优势。 •定义 存算一体芯片是一种专用集成电路(ASIC)芯片,将计算单元与存储单元融合,在完成数据存储功能的同时可以直接进行计算。具体来说,就是将权重数据存储在内存单元中,然后对内存的核心电路进行设计,使得数据在流动过程中同时可以进行计算。 1.2技术价值 过去几十年,半导体行业都是按照摩尔定律在发展。摩尔定律的核心内容是“集成电路上可以容纳的晶体管数目在大约每经过18个月便会增加一倍”。在摩尔定律能够持续往下走的时候,每一到两年换一代芯片工艺,整体性能便可提升数倍,成本也会自然降低。在性能提升速度非常快的前提下,产业界不需要进行架构创新便可以不断开拓新的市场空间。 到2010年以后,进入后摩尔时代,人们意识到摩尔定律会走到极限。自2012年以来,AI训练任务的算力需求每3.5个月就会翻倍,这个数字远超过摩尔定律的18月。为了满足算力需求,芯片需要更高的集成度,晶体管的体积会越来越小。当小到一定程度时(逼近物理极限),便会出现新的现象,如量子隧穿效应。 在冯诺依曼架构下,即使处理器的算力能够做到非常大,但存储器的访问速度远比不上处理器的处理速度,导致处理器性能收到严重制约。当前针对算力需求出现了很多解决方案,如先进工艺、3D堆叠技术等,但这些技术依旧是基于冯诺依曼架构下,仍无法从底层突破瓶颈,很快技术将走到极限。 图1算力需求的增速远超摩尔定律(图片来源《AI与计算》分析报告) 当前最先进的计算机采用的都是冯诺依曼架构。在这种架构下,数据的处理和存储是分离的,分别由中央处理器CPU和存储器完成。每次执行运算时,需要把数据从存储器搬运到处理器,中间经过数据总线,当数据处理完之后再将其搬回存储器中。 冯诺依曼理论模型的重要假设之一是计算与存储速度相当,如果双方一旦在速度上不匹配,慢的一方将会制约整体计算效率。随着半导体产业的发展,处理器和存储器针对不同的用户需求形成了不同的工艺路线,速度快成为处理器的发展方向,存储器则强调大容量和低功耗,因此处理器的运行速度远快于存储器。 图2冯诺依曼架构及冯诺依曼瓶颈 随着人工智能技术爆发,计算机每天要在处理器和存储器之间进行高频数据传递,产生大量功耗。谷歌2018年对其产品耗能情况展开调研,结果显示系统能耗的62.7%浪费在CPU和内存的读写传输上。 在数据传递过程中,内存的传输速度跟不上CPU性能,会导致实际算力受限,影响CPU运行处理速度。假设 CPU处理运算一道指令的耗时为1ns,内存读取传输该指令的耗时大约在10ns。上述问题所导致的散热需求增加、用电成本上升以及算力浪费都是企业在人工智能技术发展中面临的瓶颈。 面对数据搬运产生的高能耗和存算分离导致的性能瓶颈,存算一体架构能够从根本上解决冯诺依曼瓶颈。存算一体是在存储器内嵌入计算能力,以新的架构进行二维或三维矩阵运算。这种直接利用存储器进行数据处理的方式,消除/缩小了计算单元和存储单元之间的距离,从而消除冯诺依曼瓶颈。 1.3技术路径 目前,学术界和产业界对存算一体的技术路径尚未形成统一的分类,不同研究领域(器件、电路、架构等)对存算一体的称呼也不尽相同。目前主流的划分方式依照计算单元与存储单元的关系(距离),将其大致分为近存计算和存内计算两种技术路线。 存内计算又包含两种形式,第一种计算操作由位于存储器内部的独立计算单元完成,存储单元和计算单元相互独立存在。第二种是在内部存储中添加计算逻辑,直接在内部存储执行数据计算。这种架构数据传输路径最短,能同时满足大模型的计算精度要求。 近存计算广义上也被纳入存算一体架构,其通过将计算资源和存储资源拉近,实现能效和性能的大幅提升。由于近存计算不涉及改变计算单元和存储单元之间的关系,因此是现阶段最容易实现的技术手段。 分类 特征 实践 近存计算 计算芯片与存储芯片分离;计算部分通过存储芯片外部的计算芯片完成,将数据靠近计算单元,从而缩小数据移动的延迟和功耗 阿里达摩院于2021年研发出基于DRAM的3D键合堆叠存算一体芯片,在特定AI场景中,其性能提升10倍以上,效能比提升300倍 存内计算 计算单元和存储单元位于同一芯片中,但电路设计是分离的;计算部分由存储器内部的独立计算单元完成 目前国内的初创公司知存科技研发的超低功耗语音识别存算一体SoC芯片已正式量产并推向市场,与普通芯片相比,其算力可提高10到50倍 存内逻辑 存储单元和计算单元完全融合;没有独立的计算单元,直接通过在存储器颗粒上嵌入算法,由存储器芯片内部的存储单元完成计算操作 2010年,惠普实验室的Williams教授团队提出并验证利用忆阻器实现简单布尔逻辑功能。 2016年,美国加州大学圣塔芭芭拉分校的谢源教授团队提出利用RRAM构建基于存算一体架构的深度学习神经网络(PRIME)。测试表明,相较于冯诺伊曼架构下的方案,PRIME可以实现功耗降低约20倍,速度提高约50倍 存算一体本质上属于计算类产品,通过存储器完成计算。 存算一体的计算方式分为数字计算和模拟计算,不同种类的存储器在特性和成熟度上都有差异,所能实现的计算程度也不尽相同。 数字存算一体主要以SRAM/RRAM/DRAM作为存储器件,采用先进逻辑工艺,具有高性能高精度的优势,且具备很好的抗噪能力和可靠性。模拟存算一体通常使用Flash/RRAM/PRAM等非易失性存储器,存储密度大,并行度高,但对环境噪声和温度敏感。 基于易失性存储器SRAM和Flash的存算一体架构工艺成熟,已经实现商业化。目前,利用存算一体技术的公司中,实现量产的均以SRAM和Flash作为存储介质。 近年来,新型非易失存储器在计算密度上的巨大潜力和在存算融合性上的天然优势,使其成为未来发展趋势,其中RRAM和MRAM有广泛的应用前景。 名称 特征 研究进展 应用进展 •通过开启阵列的多行字线来读取存储器数据,并进行计算。开启的字线数越多,计算并行度越高,系统能效越高,但计算精度会受到影响。•SRAM的存取速度是所有主流存储器中最接近CPU的,基于它进行存内计算开发,最容易解决内存墙问题 基于传统6TSRAM的存内计算技术存在读写破坏、功能单一的缺点,为了实现更复杂的运算,研究者提出了不同结构的SRAM单元,如如分列式字线的6TSRAM,用作转置单元的8TSRAM,能存储2bit权重的双8TSRAM。 •九天睿芯:基于神经拟态感存算一体架构的芯片已实现量产,应用于智能语音和视觉识别领域。•后摩智能:基于SRAM的存算一体大算力芯片,已成功点亮并跑通算法模型。•苹芯科技:开发实现多款基于SRAM的存内计算加速单元并实现流片,目前处于外部测试和demo阶段。产品应用于图像识别、无人机等领域。 SRAM (StaticRandom-AccessMemory) 2014年,IBM发布TrueNorth芯片,通过SRAM交叉阵列实现了在存储器内完成计算的功能;2016年,Intel基于SRAM实现了支持逻辑操作的可配置存储器,在此基础上实现了支持无进位乘法运算的计算型cache;2018年,Intel发布面向深度学习算法的神经Cache,实现加法、乘法和减法操作;2021年的国际固态电路会议(ISSCC)上,台积电提出了一种基于数字改良的SRAM设计存内计算方案,可支持更大的神经网络; •每次执行运算时,DRAM存储单元存储的数据会被破坏,每次运算后需