您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[德邦证券]:电子:FPGA:“万能”芯片点燃成长新动力,国产替代未来可期 - 发现报告
当前位置:首页/行业研究/报告详情/

电子:FPGA:“万能”芯片点燃成长新动力,国产替代未来可期

电子设备2023-08-14陈海进、陈蓉芳德邦证券y***
电子:FPGA:“万能”芯片点燃成长新动力,国产替代未来可期

灵活性、低功耗、并行计算优势铸就不可替代性,FPGA是未来数据中心的关键。 FPGA最大的特点是可编程性,用户在使用过程中可以通过软件灵活地配置芯片内部的资源,以实现不同的电路功能;同时,FPGA因其结构特点而适用于并行计算,且以更低的功耗主打能耗比、性价比优势。我们看好FPGA在数据中心的增长潜力主要由于:(1)芯片层面:芯片制造工艺所遇到的功耗瓶颈问题使得暗硅效应产生,基于CPU+GPU以及CPU+FPGA的异构成为未来高性能计算的发展趋势; (2)数据中心层面:超算数据中心性能飞速提升,带来严重的能源成本与散热压力问题,相较于GPU,FPGA能够为数据中心提供更高的能耗比和性价比。 市场空间超行业预期,数据中心为FPGA市场再添新动力。相较于其他逻辑芯片而言,FPGA在灵活性、性能、功耗、成本之间具有较好的平衡,在工业控制、网络通信领域有广泛的应用,两大领域合计占有中国FPGA市场空间的73%(2019年)。数据中心是未来FPGA市场增长的新动力,据Semico预测,FPGA加速器市场有望从2018年的10亿美元增长至2023年超过50亿美元。2022年,受益于数据中心行业发展的驱动,FPGA市场规模迎来爆发式增长,同比增速接近30%,远超Frost&Sullivan所预期的15.7%增速值。根据FPGA龙头厂商Intel(Altera)于2023年年中给出的市场预测,2023年市场增长预计将超过16%,未来5年的增长势头向好,预计将继续保持10%以上的复合年均增长率。 FPGA国产替代:从硬件实力到软件生态,关关难过关关过。国产FPGA与国际龙头实力悬殊,主要体现在:(1)发展历史:国际龙头大多创立于上个世纪80年代,积累至今已形成全面覆盖从数十K至数千K个逻辑单元量级、从低端到高端的全系列、全领域产品线。国产FPGA尚处于中低端市场耕耘与拓展阶段。(2)竞争格局:国际龙头占据全球市场绝对份额,2019年全球前四大FPGA厂商合计占据94.4%的市场份额,国产化率尚且较低。(3)硬件水平:国际龙头已进入 7nm 制程,且已采用更为前沿的存储与互连技术。国产仍处于 28nm 向1Xnm研发的过程中。(4)软件水平:海外FPGA厂商已建立成熟的EDA软件生态环境,国产FPGA厂商也有自研EDA工具,软件层面的研发投入未来仍将占据较大比重。 FPGA国产替代:机遇和挑战并存,前路漫漫亦灿灿。我们看好FPGA国产替代的原因包括:(1)国际龙头未来预计将配合母公司数据中心战略重点发力高端市场,中端FPGA市场占位机遇出现;(2)中国FPGA市场仍以低端容量和中端制程为主,国产FPGA可触达市场空间依然广阔;(3)国产FPGA厂商开始崛起,据我们测算,主要国产FPGA设计公司合计营业收入自2018年的2亿元增长至2022年的33亿元,中高端FPGA新品也已布局研发,国产替代加速进行中。我们认为国产替代进程:短期内可关注国产FPGA厂商已触达的中低端市场景气程度、以及各家厂商的客户拓展,我们认为中低端市场国产替代大有可为;长期来看,国产FPGA厂商在 28nm 以下新产品的研发进展对高端市场的拓宽至关重要,有望成为国产FPGA“第二成长曲线”。 风险提示:数据中心对FPGA行业驱动力不及预期风险,其他传统下游应用领域需求不足风险;国产替代进展不及预期风险;竞争加剧风险。 1.FPGA:芯片设计的“万能”积木 1.1.如何理解FPGA的硬件结构? FPGA(Field Programmable Gate Array)又称现场可编程门阵列,是在硅片上预先设计实现的具有可编程特性的集成电路,用户在使用过程中可以通过软件重新配置芯片内部的资源实现不同功能。通俗意义上讲,FPGA芯片类似于集成电路中的积木,用户可根据各自的需求和想法,将其拼搭成不同的功能、特性的电路结构,以满足不同场景的应用需求。鉴于上述特性,FPGA芯片又被称作“万能”芯片。 图1:FPGA开发板结构——以AMD(Xilinx)FPGA套件ZCU102为例 据安路科技招股书,FPGA芯片由可编程的逻辑单元(Logic Cell,LC)、输入输出单元(Input Output Block,IO)和开关连线阵列(Switch Box,SB)三个部分构成: (1)逻辑单元:通过数据查找表(Look-upTable,LUT)中存放的二进制数据来实现不同的电路功能。LUT的本质是一种静态随机存取存储器(Static Random Access Memory,SRAM),其大小是由输入端的信号数量决定的,常用的查找表电路是四输入查找表(4-input LUT,LUT4)、五输入查找表(5-input LUT,LUT5)和六输入查找表(6-input LUT,LUT6)。查找表输入端越多,可以实现的逻辑电路越复杂,因此逻辑容量越大,但是查找表的面积和输入端数量成指数关系,输入端数量增加一个,查找表使用的SRAM存储电路面积增加约一倍。不同的逻辑单元结构可以使用不同大小的查找表,或者是不同查找表类型的组合。此外,逻辑单元内部还包含选择器、进位链和触发器等其他组件。为了提高芯片架构效率,若干逻辑单元可以进一步组成逻辑块(Logic Block),逻辑块内部提供快速局部资源,从而形成层次化芯片架构。 (2)输入输出单元:是芯片与外界电路的接口部分,用于实现不同条件下对输入/输出信号的驱动与匹配要求。 (3)开关阵列:能够通过内部MOS管的开关控制信号连线的走向。 图2:FPGA芯片结构 图3:查找表(LUT)结构 FPGA从Xilinx公司1985年推出世界首款FPGA芯片“XC2064”经历过数十年发展,在硬件架构上大致经历了四个阶段:从PROM阶段(简单的数字逻辑)到PAL/GAL阶段(“与”&“或”阵列)再到CPLD/FPGA阶段(超大规模电路),到如今FPGA与ASIC技术融合、向系统级发展的SoC FPGA/eFPGA阶段。硬件水平整体趋向更大规模、更高灵活性、更优性能。 图4:FPGA大致的发展历程 1.2.FPGA特点:灵活性高,适用于并行计算 FPGA芯片属于逻辑芯片大类。逻辑芯片按功能可分为四大类芯片:通用处理器芯片(包含中央处理芯片CPU、图形处理芯片GPU,数字信号处理芯片DSP等)、存储器芯片(Memory)、专用集成电路芯片(ASIC)和现场可编程逻辑阵列芯片(FPGA)。 图5:FPGA芯片属于逻辑芯片大类 据复旦微招股书,FPGA兼具灵活性和并行性两大特点。(1)灵活性:FPGA芯片拥有更高的灵活性和更丰富的选择性,通过对FPGA编程,用户可随时改变芯片内部的连接结构,实现任何逻辑功能。尤其是在技术标准尚未成熟或发展更迭速度快的行业领域,FPGA能有效帮助企业降低投资风险及沉没成本,是一种兼具功能性和经济效益的选择。 图6:FPGA芯片逻辑功能实现过程 (2)并行性:CPU、GPU在执行任务时,执行单元需按顺序通过取指、译码、执行、访存以及写回等一系列流程完成数据处理,且多方共享内存导致部分任务需经访问仲裁,从而产生任务延时。而FPGA每个逻辑单元与周围逻辑单元的连接构造在重编程(烧写)时就已经确定,寄存器和片上内存属于各自的控制逻辑,无需通过指令译码、共享内存来通信,各硬件逻辑可同时并行工作,大幅提升数据处理效率。尤其是在执行重复率较高的大数据量处理任务时,FPGA相比CPU等优势明显。 图7:CPU工作流程 据润和软件,相较于其他逻辑芯片而言,FPGA在灵活性、性能、功耗、成本之间具有较好的平衡: (1)相较于GPU,FPGA在功耗和灵活性等方面具备优势。一方面,由于GPU采用大量的处理单元并且大量访问片外存储SDRAM,其计算峰值更高,同时功耗也较高,FPGA的平均功耗(10W)远低于GPU的平均功耗(200W),可有效改善散热问题;另一方面,GPU在设计完成后无法改动硬件资源,而FPGA根据特定应用对硬件进行编程,更具灵活性。机器学习使用多条指令平行处理单一数据,FPGA的定制化能力更能满足精确度较低、分散、非常规深度神经网络计算需求。 (2)相较于ASIC芯片,FPGA在项目初期具备短周期、高性价比的优势。 ASIC需从标准单元进行设计,当芯片的功能及性能需求发生变化时或者工艺进步时,ASIC需重新投片,由此带来较高的沉没成本以及较长的开发周期;而FPGA具有编程、除错、再编程和重复操作等优点,可实现芯片功能重新配置,因此早期FPGA常作为定制化ASIC领域的半定制电路出现,被业内认为是构建原型和开发设计的较快推进的路径之一。 图8:FPGA与其他逻辑芯片的比较 1.3.前沿技术:关注HBM高带宽存储与NoC片上网络互连 1.3.1.HBM:兼顾高容量和大带宽,是弥合内存层次结构中关键缺口的存储类型 FPGA逻辑结构中的内存大致分为三个层次(以IntelAgilex-M FPGA为例),包括超本地化片上内存、以HBM2e堆栈形式提供的本地封装内存,以及DDR5和LPDDR5等外部内存架构和接口。 片上内存(MLAB模块和M20K模块):最本地化的内存; 封装内存(HBM):弥合内存层次结构中关键缺口的内存,其容量远大于片上内存(两个数量级以上),同时带宽又远大于片外内存(两个数量级以上); 片外内存(DDR5、LPDDR5等):对于超出HBM2e容量的应用,或对独立内存的灵活性有要求时,需要DDR5和LPDDR5以及其他主流的内存架构。 HBM2e与FPGA裸片集成在同一封装中可以在小尺寸外形规格中实现更高带宽、更低功耗、更低时延。(1)内存容量方面:每个HBM2e堆栈可包含4层或8层,每层提供2GB内存,因此单个IntelAgilex-M系列FPGA可包含16GB或32 GB的高带宽内存;(2)带宽方面:HBM2e可实现每堆栈高达410Gbps的内存带宽,较DDR5组件的带宽提升高达18倍,较GDDR6组件提升7倍。两个HBM2e堆栈加起来可提供高达820Gbps的峰值内存带宽;(3)功耗和时延方面:由于HBM2e集成在封装中,因此也不需要使用外部I/O引脚,从而节省了电路板空间,并消除了它们会带来的功耗和互连时延。 图9:FPGA内存层次结构——以Intel Agilex-M FPGA为例 1.3.2.互连:片上资源互连复杂性催生NoC架构应用 片上网络(NoC,Network on Chip)是指在单芯片上集成大量的计算资源以及连接这些资源的片上通信网络,用于在可编程逻辑(PL)、处理器系统(PS)和其它硬核块中的IP端点之间共享数据。 与之对应的概念——片上系统(SoC)则是包含一整套多样化和互连单元的单芯片,旨在解决一定范围的任务。传统上,SoC包括几个计算内核、内存控制器、I/O子系统以及它们之间的连接与切换方式(总线、交叉开关、NoC元件)。 图10:典型的总线型SoC结构 片上网络NoC包括计算和通信两个子系统。计算子系统(由PE,Processing Element构成的子系统)完成广义的“计算”任务,PE既可以是现有意义上的CPU、SoC,也可以是各种专用功能的IP核或存储器阵列、可重构硬件等。通信子系统(由Switch组成的子系统)负责连接PE,实现计算资源之间的高速通信。 通信节点及其间的互连线所构成的网络即为片上通信网络。 图11:片上网络(NoC)架构——2D-NoC 图12:片上网络(NoC)架构——3D-NoC 类比城市高速公路网络,NoC架构简化互连路径,提高FPGA传输速率。 Achronix基于台积电(TSMC)的7nm FinFET工艺的Speedster7t FPGA器件包含了2D NoC架构,为FPGA外部高速接口和内部可编程逻辑的数据传输提供了超高带宽(~27Tbps)。NoC使用一系列高速的行和列网络通路(水平和垂直方式)在整个FPGA内部分发数据,每一行或每一列都有两个256位的、单向的、行业