行业研究公司研究宏观策略财报招股书会议纪要稳定币低空经济 DeepSeek AIGC 智能驾驶大模型

通信行业深度：AI算力的ASIC之路，从以太坊矿机说起

信息技术2024-03-19-国盛证券s***

AI智能总结

该报告讨论了AI算力的ASIC之路，特别是在以太坊矿机上的发展。报告指出，ASIC在成本端有明显优势，而GPU在通用性和生态上更胜一筹。报告还回顾了芯片发展历史，强调了客户需求决定芯片发展的规律。报告指出，大模型算力需求急剧膨胀，推理ASIC路径逐渐明晰。报告以矿机为鉴，指出需求和算法确定性是ASIC起量的关键。报告还指出，软件有望成为算力构筑第三极，但同时也面临编译器的难度和第三方兼容性的问题。报告最后提出了投资建议和风险提示。

近期关于AI算力的GPU与ASIC路线讨论渐多，从推理角度看，ASIC在成本端优势明显，而GPU在通用性及生态上更胜一筹。若干年前，以太坊矿机也经历了从GPU到ASIC的迭代，从算力发展角度给我们诸多启发。天下芯片，通久必专，专久必通。回望芯片发展历史，从CPU，到图像与深度学习时代大放异彩的GPU，再到矿机ASIC的异军突起。芯片发展一直遵循着上述规律。某类需求的爆发，推动通用芯片中的某一功能独立并形成ASIC，来更好的满足需求。通用芯片发现需求，专用芯片满足需求，这就是半导体行业面对人类需求时的解决之道，归根结底，客户的需求决定一切。大模型算力需求急剧膨胀，推理ASIC路径逐渐明晰。在GPT的推动下，世界迅速进入了大模型的新纪元。在Transformer算法下，算力大小成为了模型迭代的关键因素，全球对于算力卡的需求迅速井喷，能够先一步满足算力需求的通用GPU变得一卡难求。经过一年发展，大家对于Transformer认可度逐渐提升，同时算力的需求持续加速，促使相关ASIC浮出水面。以谷歌TPU，Groq为代表的优秀ASIC作品逐渐摸索出了以堆料矩阵乘法核构建“流水线”式处理流程的设计思路，在舍弃通用GPU冗余小核提高性能的同时，也较好针对Transformer做了优化。以矿机为鉴，需求和算法确定性是ASIC起量关键。复盘矿机AISC发展之路，受益币价上涨，算力需求井喷，且算法固定的比特币在问世的3年内快速完成了矿机的全面ASIC化。而币价前期走势较弱，算力需求不稳定，且一直存在转POS（停止挖矿）预期的ETH则在结束挖矿时仍未完成ASIC化。由此可见，稳定且大量的客户需求、算法的确定性，是ASIC放量的关键。软件有望成为算力构筑第三极。ASIC时代，编译器成为了产品设计的壁垒，如何有效的连接“流水线”中的计算单元与存储，如何在无小核辅助的情况下整理进入计算核的数据，编译器的难度陡然提升。同时，如何在CUDA生态对第三方“兼容”之路封锁加剧的情况下，做出好用的软件与生态，让用户较为舒适的进行切换，也将成为新进入玩家需要面临的问题。兼听则明，ASIC是通往AGI中不可或缺的一环。“硬件的使用者和开发者往往对立”，这一现象似乎正在AI芯片界再次出现，当下，AI工程师们普遍希望停留在舒适的CUDA生态，忽视通用芯片的冗余元件和低效。而芯片架构师们则在努力地创造ASIC架构，降低最底层的计算成本。而最终决定双方胜负的，唯有需求，需求足够大，算力的建设方终将为ASIC的性价比而买单，需求不明朗，客户则会先采购通用的产品然后继续观望。全局来看，AI的叙事足够宏大，与比特币的一轮完全替代不同，AISC与通用芯片将螺旋发展，通用芯片探索新算法与模型、ASIC将通过降本使得需求得以释放，繁荣的生态吸引更多用户与参与者，最终培育出新的、更强的算法，循环往复，螺旋上升，最终达成AGI的宏伟目标。投资建议：关注五大环节，一线晶圆厂，ASIC设计龙头，散热厂商，ASIC芯片公司、服务器。晶圆厂：台积电（TSMC）、英特尔（INTC）、中芯国际； AISC设计龙头：美满电子（MRVL）、博通（AVGO）；散热厂商：英维克、中航光电、高澜股份； ASIC芯片公司：寒武纪、芯原股份、嘉楠科技（CAN）；服务器龙头：工业富联、高新发展、中科曙光、紫光股份。风险提示：AI发展不及预期，AI算法切换风险，ASIC用户认可度低的风险。 1、投资要件天下芯片大势，通久必专，专久必通。回望近年来芯片发展史，从最早的CPU独霸天下，并行计算时代GPU的崛起，挖矿时代专用ASIC的大放异彩，我们不难发现，新的一大类芯片的出现，往往是因为某一类需求的爆发，从而使得过往通用型芯片中的特定功能被分割出来，形成了新的芯片类目。通用芯片发现需求，专用芯片满足需求，这就是半导体行业面对人类需求时的解决之道，归根结底，需求决定一切。芯片的架构能否满足契合客户的需求，是决定一个芯片公司能否成功的重要因素。我们复盘矿机发展历史，算法较为简单且完全固定的比特币，在全网算力（矿工需求）的急剧内卷下，产业内较为快速地完成了ASIC对通用芯片的全替代，而一直存在有POW转向POS预期的以太坊，由于客户考虑转向之后ASIC完全失效的风险，因此残值较高的通用性芯片（显卡）一直保持了较高的市占率。因此，客户需求、算法稳定是ASIC放量的两大条件。大模型时代，路线转变之快，需求放量之快，前所未见。正如同任何新爆发的需求一样，通用型芯片成为了开辟道路的急先锋，英伟达通过A100，H100两款产品，满足了AI起量的第一波需求。如今，经过两年发展，全球对于Transformer及其变种认可度越来越高，同时推理，下游应用等需求释放迫在眉睫。我们认为，ASIC将会成为Transformer模式下训练或者下游应用推理算力的有效补充，正如同上几轮芯片周期所经历的一样，通用创造需求，专用满足需求。主流ASIC大模型路线正在逐渐清晰，编译器愈发重要。回顾英伟达的芯片架构发展史，恰是一步步从专用走向通用的最好诠释，从最早的单小核，再到引入Tensor Core处理向量与矩阵，结合CUDA生态对于人类海量算法的积累，已然成为了AI的CPU芯片，从量子力学、光线追踪到大模型训练无所不能。大模型时代，随着Transformer及其变种的生态确立，亦或者说，以矩阵乘法为核心的运算方式的确立，主流ASIC得以将通用芯片中的不必要部分去除，保留单纯用于处理矩阵乘法的计算核，同时再利用Wafer-Scaling、近存计算等形式，在一张芯片内，通过更多的乘法单元和存储之间的“流水线式”配合，从而实现了对于该类算法的高效计算。但与此同时，由于需要多个矩阵乘法核、存储之间的相互配合，同时少了对数据预处理的“小核”的帮助，该技术路线对于控制算核运算的“编译器”设计难度极高。从大火的LPU芯片“Groq”的发展历程就可以看出，团队用于软件设计的环节，远长于硬件架构的设计。因此，进入ASIC和推理时代，编译器对于算核的控制能力，编译器的设计能力，将成为行业进入者最大的壁垒。行业催化： 1.Transformer及其变种算法加速成为主流，相关ASIC需求持续旺盛。 2. AI推理需求爆发前夜，ASIC带来的降本或将成为客户追求的主要方向。投资建议：晶圆厂：台积电（TSMC）、英特尔（INTC）、中芯国际； AISC设计龙头：美满电子（MRVL）、博通（AVGO）；散热厂商：英维克、中航光电、高澜股份； ASIC芯片公司：寒武纪、芯原股份、嘉楠科技（CAN）；服务器龙头：工业富联、高新发展、中科曙光、紫光股份。 2、ASIC芯片概述 2.1什么是ASIC芯片 ASIC，全称为Application Specific Integrated Circuit，中文名为专用集成电路芯片，顾名思义，是一种为了专门目的或者算法而设计的芯片。ASIC芯片的架构并不固定，既有较为简单的网卡芯片，用于控制网络流量，满足防火墙需求等等，也有类似谷歌TPU，昇腾910B一类的顶尖AI芯片。ASIC并不代表简单，而是代表面向的需求，只要是为了某一类算法，或者是某一类用户需求而去专门设计的芯片，都可以称之为ASIC。当下，ASIC芯片的主要根据运算类型分为了TPU、DPU和NPU芯片，分别对应了不同的基础计算功能。TPU即为谷歌发明的AI处理器，主要支持张量计算，DPU则是用于数据中心内部的加速计算，NPU则是对应了上一轮AI热潮中的CNN神经卷积算法，后来被大量SoC进了边缘设备的处理芯片中。从芯片大类来看，目前人类的芯片可以被分为CPU、GPU、FPGA、ASIC四种大类，其中CPU是人类芯片之母，拥有最强的通用性，适合复杂的指令与任务，GPU则是人类历史上的第一大类“ASIC”芯片，通过大量部署并行计算核，实现了对于异构计算需求的优化。FPGA芯片则更加强调可编程性，可以通过编程重新配置芯片内部的逻辑门和存储器，但是运算性能较低。ASIC则完全为某类功能或者算法专门设计，通用性较低的同时，拥有对某一类算法最好的性能。图表1：CPU、GPU、FPGA、ASIC对比 2.2芯片大势，通久必专，专久必通从最早的CPU独霸天下，到并行计算时代GPU的崛起，挖矿时代专用ASIC的大放异彩，我们不难发现，新芯片的出现，往往是因为某一类需求的爆发，从而使得过往通用型芯片中的特定功能被分割出来，形成了新的芯片类目。通用芯片发现需求、探索需求，专用芯片满足需求，这就是半导体行业面对人类需求时的解决之道，归根结底，需求决定一切，芯片的架构能否满足契合客户的需求，是决定一个芯片公司能否成功的重要因素。大模型时代，风来的如此之快，2023年春节之前，业界还在努力优化复杂的CNN算法，追求模型的小而美，之后随着GPT和OPENAI的横空出世，将业界热点算法迅速从CNN转变为Transformer，底层运算也变为矩阵乘法。同时由于大模型“大力出奇迹”的特性，对于算力的需求极速释放，2023年来看，唯一能够满足用户这一新需求的依然只有较为通用的英伟达芯片，因此，也在这一年多内造就了英伟达2w亿美金的传奇市值。但天下芯片，通久必专，专久必通，当矩阵乘法这一固定运算占据了大部分的大模型运算需求时，通用芯片中的小核心，甚至是向量计算核心，逐渐成为了功耗、成本和延迟的负担，客户终究不会因为单一的矩阵乘法需求，而为通用性去额外买单。因此，从海外大厂到无数业界大佬的创业公司，纷纷加入了“矩阵乘法”ASIC，又或者是大模型ASIC的创业浪潮中，在下文中，我们将列举两个较为有代表性的ASIC芯片，去看看业界的设计思路与演化方向。 3、大模型ASIC的发展路线 3.1初步专用化：GPU亦是ASIC 从历史来看，我们通过剖析GPU的结构和其与CPU的区别，不难发现，GPU也是某种意义上的ASIC，过去的数据处理任务，通常是单条复杂指令或逻辑运算，但随着图像处理需求的出现，计算过程中往往开始包含大量并行的简单计算，而CPU由于核心数量有限，虽然单核能够处理较为复杂的指令，但面对大量简单计算时，运算时间长的缺点逐渐暴露。所以正如前文所说，CPU作为人类最通用的芯片，带领人类进入并探索了图像时代，紧接着，面对海量释放的AI需求，GPU作为“图像ASIC”横空出世，满足了海量的图像处理需求。图表2：GPU与CPU对比进一步探究GPU的发展历程，我们会发现芯片趋势的第二部分，如果说CPU到GPU是我们提到的“通久必专”，那么GPU本身的发展历史则是“专久必通”的最好诠释。在并行计算早期，算法大多数是由简单的加减乘除构成，因此通过在GPU芯片内部署大量的小核来并行计算这些简单算法。但后来，随着并行计算，或者说图像处理需求慢慢衍生出图像识别、光线追踪、机器视觉等等新功能和与之对应的以“卷积计算”为代表的新算法，GPU本身也从专用芯片，变成了面向并行计算模式或者海量图像需求的“通用芯片”。其中最有意义的事件，也奠定了英伟达如今领先地位的是Tensor Core的发明与问世。英伟达在2017年5月发布的Volta架构中引入了第一代TensorCore，为混合精度矩阵乘法提供了突破性的性能，与上一代Pascal相比，用于训练的峰值性能提升了高达12倍，用于推理的峰值TFLOPS性能提升了高达6倍。这项关键功能使Volta提供了比Pascal高3倍的训练和推理性能。图表3：英伟达GPU架构迭代历程 Tensor Core又名张量计算核心，简单理解，便是专门用来计算矩阵乘法的一块大核，其具体结构为一个由乘法器和加法器共同构成的立方体。立方体的主要部分为乘法器，最底部一层则为加法器，根据矩阵乘法公式，加法器将上方乘法器的运算结果进行累加，从而快速得出矩阵乘法的结果，这一特殊结构，使得过去有多个小核经过漫长计算才能得到的矩阵乘法结果，优化了许多。图表4：NVIDIA

点击免费查看完整报告

你可能感兴趣

通信行业深度：AI算力的ASIC之路，从以太坊矿机说起

你可能感兴趣

通信区块链行业深度：大转换——以太坊合并，从显卡跌价说起

区块链行业专题研究：科创未来（六），迭代与竞争，以太坊的Layer 2扩容之路

【中泰研究丨晨会聚焦】食品饮料范劲松：休闲零食行业深度：解码小零食的大单品之路——从奥利奥说起

休闲零食行业深度报告：解码小零食的大单品之路——从奥利奥说起

国金：以太坊创始人Vitalik Buterik Buterin解读（私有链和联盟链的机会与挑战）会议纪要