近期关于AI算力的GPU与ASIC路线讨论渐多,从推理角度看,ASIC在成本端优势明显,而GPU在通用性及生态上更胜一筹。若干年前,以太坊矿机也经历了从GPU到ASIC的迭代,从算力发展角度给我们诸多启发。 天下芯片,通久必专,专久必通。回望芯片发展历史,从CPU,到图像与深度学习时代大放异彩的GPU,再到矿机ASIC的异军突起。芯片发展一直遵循着上述规律。 某类需求的爆发,推动通用芯片中的某一功能独立并形成ASIC,来更好的满足需求。 通用芯片发现需求,专用芯片满足需求,这就是半导体行业面对人类需求时的解决之道,归根结底,客户的需求决定一切。 大模型算力需求急剧膨胀,推理ASIC路径逐渐明晰。在GPT的推动下,世界迅速进入了大模型的新纪元。在Transformer算法下,算力大小成为了模型迭代的关键因素,全球对于算力卡的需求迅速井喷,能够先一步满足算力需求的通用GPU变得一卡难求。经过一年发展,大家对于Transformer认可度逐渐提升,同时算力的需求持续加速,促使相关ASIC浮出水面。以谷歌TPU,Groq为代表的优秀ASIC作品逐渐摸索出了以堆料矩阵乘法核构建“流水线”式处理流程的设计思路,在舍弃通用GPU冗余小核提高性能的同时,也较好针对Transformer做了优化。 以矿机为鉴,需求和算法确定性是ASIC起量关键。复盘矿机AISC发展之路,受益币价上涨,算力需求井喷,且算法固定的比特币在问世的3年内快速完成了矿机的全面ASIC化。而币价前期走势较弱,算力需求不稳定,且一直存在转POS(停止挖矿)预期的ETH则在结束挖矿时仍未完成ASIC化。由此可见,稳定且大量的客户需求、算法的确定性,是ASIC放量的关键。 软件有望成为算力构筑第三极。ASIC时代,编译器成为了产品设计的壁垒,如何有效的连接“流水线”中的计算单元与存储,如何在无小核辅助的情况下整理进入计算核的数据,编译器的难度陡然提升。同时,如何在CUDA生态对第三方“兼容”之路封锁加剧的情况下,做出好用的软件与生态,让用户较为舒适的进行切换,也将成为新进入玩家需要面临的问题。 兼听则明,ASIC是通往AGI中不可或缺的一环。“硬件的使用者和开发者往往对立”,这一现象似乎正在AI芯片界再次出现,当下,AI工程师们普遍希望停留在舒适的CUDA生态,忽视通用芯片的冗余元件和低效。而芯片架构师们则在努力地创造ASIC架构,降低最底层的计算成本。而最终决定双方胜负的,唯有需求,需求足够大,算力的建设方终将为ASIC的性价比而买单,需求不明朗,客户则会先采购通用的产品然后继续观望。全局来看,AI的叙事足够宏大,与比特币的一轮完全替代不同,AISC与通用芯片将螺旋发展,通用芯片探索新算法与模型、ASIC将通过降本使得需求得以释放,繁荣的生态吸引更多用户与参与者,最终培育出新的、更强的算法,循环往复,螺旋上升,最终达成AGI的宏伟目标。 投资建议:关注五大环节,一线晶圆厂,ASIC设计龙头,散热厂商,ASIC芯片公司、服务器。 晶圆厂:台积电(TSMC)、英特尔(INTC)、中芯国际; AISC设计龙头:美满电子(MRVL)、博通(AVGO); 散热厂商:英维克、中航光电、高澜股份; ASIC芯片公司:寒武纪、芯原股份、嘉楠科技(CAN); 服务器龙头:工业富联、高新发展、中科曙光、紫光股份。 风险提示:AI发展不及预期,AI算法切换风险,ASIC用户认可度低的风险。 1、投资要件 天下芯片大势,通久必专,专久必通。回望近年来芯片发展史,从最早的CPU独霸天下,并行计算时代GPU的崛起,挖矿时代专用ASIC的大放异彩,我们不难发现,新的一大类芯片的出现,往往是因为某一类需求的爆发,从而使得过往通用型芯片中的特定功能被分割出来,形成了新的芯片类目。通用芯片发现需求,专用芯片满足需求,这就是半导体行业面对人类需求时的解决之道,归根结底,需求决定一切。芯片的架构能否满足契合客户的需求,是决定一个芯片公司能否成功的重要因素。 我们复盘矿机发展历史,算法较为简单且完全固定的比特币,在全网算力(矿工需求)的急剧内卷下,产业内较为快速地完成了ASIC对通用芯片的全替代,而一直存在有POW转向POS预期的以太坊,由于客户考虑转向之后ASIC完全失效的风险,因此残值较高的通用性芯片(显卡)一直保持了较高的市占率。因此,客户需求、算法稳定是ASIC放量的两大条件。 大模型时代,路线转变之快,需求放量之快,前所未见。正如同任何新爆发的需求一样,通用型芯片成为了开辟道路的急先锋,英伟达通过A100,H100两款产品,满足了AI起量的第一波需求。如今,经过两年发展,全球对于Transformer及其变种认可度越来越高,同时推理,下游应用等需求释放迫在眉睫。我们认为,ASIC将会成为Transformer模式下训练或者下游应用推理算力的有效补充,正如同上几轮芯片周期所经历的一样,通用创造需求,专用满足需求。 主流ASIC大模型路线正在逐渐清晰,编译器愈发重要。回顾英伟达的芯片架构发展史,恰是一步步从专用走向通用的最好诠释,从最早的单小核,再到引入Tensor Core处理向量与矩阵,结合CUDA生态对于人类海量算法的积累,已然成为了AI的CPU芯片,从量子力学、光线追踪到大模型训练无所不能。大模型时代,随着Transformer及其变种的生态确立,亦或者说,以矩阵乘法为核心的运算方式的确立,主流ASIC得以将通用芯片中的不必要部分去除,保留单纯用于处理矩阵乘法的计算核,同时再利用Wafer-Scaling、近存计算等形式,在一张芯片内,通过更多的乘法单元和存储之间的“流水线式”配合,从而实现了对于该类算法的高效计算。 但与此同时,由于需要多个矩阵乘法核、存储之间的相互配合,同时少了对数据预处理的“小核”的帮助,该技术路线对于控制算核运算的“编译器”设计难度极高。从大火的LPU芯片“Groq”的发展历程就可以看出,团队用于软件设计的环节,远长于硬件架构的设计。因此,进入ASIC和推理时代,编译器对于算核的控制能力,编译器的设计能力,将成为行业进入者最大的壁垒。 行业催化: 1.Transformer及其变种算法加速成为主流,相关ASIC需求持续旺盛。 2. AI推理需求爆发前夜,ASIC带来的降本或将成为客户追求的主要方向。 投资建议: 晶圆厂:台积电(TSMC)、英特尔(INTC)、中芯国际; AISC设计龙头:美满电子(MRVL)、博通(AVGO); 散热厂商:英维克、中航光电、高澜股份; ASIC芯片公司:寒武纪、芯原股份、嘉楠科技(CAN); 服务器龙头:工业富联、高新发展、中科曙光、紫光股份。 2、ASIC芯片概述 2.1什么是ASIC芯片 ASIC,全称为Application Specific Integrated Circuit,中文名为专用集成电路芯片,顾名思义,是一种为了专门目的或者算法而设计的芯片。ASIC芯片的架构并不固定,既有较为简单的网卡芯片,用于控制网络流量,满足防火墙需求等等,也有类似谷歌TPU,昇腾910B一类的顶尖AI芯片。ASIC并不代表简单,而是代表面向的需求,只要是为了某一类算法,或者是某一类用户需求而去专门设计的芯片,都可以称之为ASIC。 当下,ASIC芯片的主要根据运算类型分为了TPU、DPU和NPU芯片,分别对应了不同的基础计算功能。TPU即为谷歌发明的AI处理器,主要支持张量计算,DPU则是用于数据中心内部的加速计算,NPU则是对应了上一轮AI热潮中的CNN神经卷积算法,后来被大量SoC进了边缘设备的处理芯片中。 从芯片大类来看,目前人类的芯片可以被分为CPU、GPU、FPGA、ASIC四种大类,其中CPU是人类芯片之母,拥有最强的通用性,适合复杂的指令与任务,GPU则是人类历史上的第一大类“ASIC”芯片,通过大量部署并行计算核,实现了对于异构计算需求的优化。FPGA芯片则更加强调可编程性,可以通过编程重新配置芯片内部的逻辑门和存储器,但是运算性能较低。ASIC则完全为某类功能或者算法专门设计,通用性较低的同时,拥有对某一类算法最好的性能。 图表1:CPU、GPU、FPGA、ASIC对比 2.2芯片大势,通久必专,专久必通 从最早的CPU独霸天下,到并行计算时代GPU的崛起,挖矿时代专用ASIC的大放异彩,我们不难发现,新芯片的出现,往往是因为某一类需求的爆发,从而使得过往通用型芯片中的特定功能被分割出来,形成了新的芯片类目。 通用芯片发现需求、探索需求,专用芯片满足需求,这就是半导体行业面对人类需求时的解决之道,归根结底,需求决定一切,芯片的架构能否满足契合客户的需求,是决定一个芯片公司能否成功的重要因素。 大模型时代,风来的如此之快,2023年春节之前,业界还在努力优化复杂的CNN算法,追求模型的小而美,之后随着GPT和OPENAI的横空出世,将业界热点算法迅速从CNN转变为Transformer,底层运算也变为矩阵乘法。同时由于大模型“大力出奇迹”的特性,对于算力的需求极速释放,2023年来看,唯一能够满足用户这一新需求的依然只有较为通用的英伟达芯片,因此,也在这一年多内造就了英伟达2w亿美金的传奇市值。 但天下芯片,通久必专,专久必通,当矩阵乘法这一固定运算占据了大部分的大模型运算需求时,通用芯片中的小核心,甚至是向量计算核心,逐渐成为了功耗、成本和延迟的负担,客户终究不会因为单一的矩阵乘法需求,而为通用性去额外买单。因此,从海外大厂到无数业界大佬的创业公司,纷纷加入了“矩阵乘法”ASIC,又或者是大模型ASIC的创业浪潮中,在下文中,我们将列举两个较为有代表性的ASIC芯片,去看看业界的设计思路与演化方向。 3、大模型ASIC的发展路线 3.1初步专用化:GPU亦是ASIC 从历史来看,我们通过剖析GPU的结构和其与CPU的区别,不难发现,GPU也是某种意义上的ASIC,过去的数据处理任务,通常是单条复杂指令或逻辑运算,但随着图像处理需求的出现,计算过程中往往开始包含大量并行的简单计算,而CPU由于核心数量有限,虽然单核能够处理较为复杂的指令,但面对大量简单计算时,运算时间长的缺点逐渐暴露。所以正如前文所说,CPU作为人类最通用的芯片,带领人类进入并探索了图像时代,紧接着,面对海量释放的AI需求,GPU作为“图像ASIC”横空出世,满足了海量的图像处理需求。 图表2:GPU与CPU对比 进一步探究GPU的发展历程,我们会发现芯片趋势的第二部分,如果说CPU到GPU是我们提到的“通久必专”,那么GPU本身的发展历史则是“专久必通”的最好诠释。在并行计算早期,算法大多数是由简单的加减乘除构成,因此通过在GPU芯片内部署大量的小核来并行计算这些简单算法。但后来,随着并行计算,或者说图像处理需求慢慢衍生出图像识别、光线追踪、机器视觉等等新功能和与之对应的以“卷积计算”为代表的新算法,GPU本身也从专用芯片,变成了面向并行计算模式或者海量图像需求的“通用芯片”。 其中最有意义的事件,也奠定了英伟达如今领先地位的是Tensor Core的发明与问世。 英伟达在2017年5月发布的Volta架构中引入了第一代TensorCore,为混合精度矩阵乘法提供了突破性的性能,与上一代Pascal相比,用于训练的峰值性能提升了高达12倍,用于推理的峰值TFLOPS性能提升了高达6倍。这项关键功能使Volta提供了比Pascal高3倍的训练和推理性能。 图表3:英伟达GPU架构迭代历程 Tensor Core又名张量计算核心,简单理解,便是专门用来计算矩阵乘法的一块大核,其具体结构为一个由乘法器和加法器共同构成的立方体。立方体的主要部分为乘法器,最底部一层则为加法器,根据矩阵乘法公式,加法器将上方乘法器的运算结果进行累加,从而快速得出矩阵乘法的结果,这一特殊结构,使得过去有多个小核经过漫长计算才能得到的矩阵乘法结果,优化了许多。 图表4:NVIDIA