对等关税新质生产力低空经济 DeepSeek AIGC 人形机器人智能驾驶大模型固态电池半导体银发经济

人工智能系列报告（四）算力系列报告（一）：推理芯片，生成式AI驱动，或迎来重大机遇-西部证券

信息技术2024-05-08郑宏达西部证券一***

AI智能总结

生成式AI驱动推理芯片的重大机遇

核心结论

本报告指出，随着生成式AI模型性能的不断提升，推理需求有望迎来高速增长，这为推理芯片市场带来了重大机遇。以ChatGPT为代表的生成式AI应用快速迭代、落地，显著增加了模型推理的算力需求。随着模型参数和Token数量的增加，单次推理所需的算力将持续攀升。

推理芯片技术升级与市场需求

量化技术迭代：量化技术（Quantization）作为决定生成式AI推理成本的关键因素，其升级将有助于降低推理门槛，促进CPU+ASIC、CPU+FPGA等技术路线的发展，以及国产算力市场的放量。
多元化技术路线：英伟达、AMD等数据中心GPU厂商的关注点不仅限于训练场景，同样重视推理算力的提升。同时，谷歌、微软、亚马逊、Meta等海外CSP企业也在积极自研用于模型训练和推理的芯片，寻求更高效的解决方案。

国产推理芯片市场潜力

运营商加速采购：中国移动、中国联通、中国电信等通信运营商已集中采购大量AI服务器，这反映出国内推理和训练算力的加速部署。国产AI芯片在这些场景中的使用率较高，预示着国产推理芯片市场将迎来重大发展机遇。

建议关注的公司

报告推荐关注寒武纪、海光信息等公司在AI推理芯片领域的布局，以及浪潮信息、中科曙光、神州数码、工业富联等公司在算力服务器领域的表现。

风险提示

技术落地与商业化风险：生成式AI技术的商业化进程可能不如预期。
产业政策变化风险：相关政策的调整可能影响行业发展。
宏观经济风险：整体经济形势可能影响市场对AI相关产品的接受度和投入。

结构概览：

生成式AI推理需求增长：阐述了生成式AI模型性能提升带来的推理需求增长背景。
量化技术与成本降低：深入分析量化技术在降低推理成本上的作用。
多元化技术路线：讨论了不同技术路线在提升推理算力方面的进展。
国产推理芯片市场机遇：聚焦国产芯片市场的发展前景及其潜在优势。
关注公司：推荐了在AI推理芯片领域值得关注的企业。
风险提示：列举了影响行业发展的重要风险因素。

主要亮点：

技术进步：量化技术的迭代升级为降低推理成本提供了可能，促进了技术路线的多元化发展。
市场机遇：生成式AI的广泛应用激发了对高性能推理芯片的需求，特别是国产芯片市场展现出巨大潜力。
行业布局：报告推荐的公司布局覆盖了AI推理芯片和算力服务器两大领域，展示了当前行业发展的热点和趋势。

结论：

生成式AI的快速发展为推理芯片市场带来了前所未有的机遇，尤其是在量化技术的迭代、多元技术路线的探索以及国产芯片市场潜力的释放方面。随着生成式AI应用的持续落地，预计推理算力需求将进一步增长，从而为相关企业提供更大的发展空间。

人工智能系列报告（四）算力系列报告（一）：推理芯片，生成式AI驱动，或迎来重大机遇-西部证券

行业专题报告|计算机推理芯片：生成式AI驱动，或迎来重大机遇人工智能系列报告（四）/算力系列报告（一） 核心结论生成式AI模型性能不断提升，或处于更大规模放量前夕，推理需求有望高速增长。OpenAI于2022年11月推出生成式AI应用ChatGPT，在不到两个月的时间内，月活跃用户数突破1亿人。以ChatGPT为代表的生成式AI应用快速迭代、落地，模型推理的算力需求逐渐显现。随着生成式AI模型参数和Token数量不断增加，模型单次推理所需的算力持续攀升。同时，ChatGPT、Gemini、Kimi等聊天机器人的用户数逐步上升，MicrosoftCopilot、AdobeFirefly、WPSAI等办公助手持续落地，用户侧的流量不断上升，推理算力未来有望超过训练算力，最终训练芯片与推理芯片数量之比或达到2：8。量化技术（Quantization）是决定生成式AI推理成本的关键因素，量化技术的迭代升级有望降低推理门槛，为CPU+ASIC、CPU+FPGA等技术路线的发展，以及国产算力的放量提供了技术基础。人工智能模型的量化技术从最初的FP16量化快速发展到目前应用最成熟的INT8量化，再到正在进一步研究中的INT4量化，呈现出数据精度逐步降低，内存或显存占用不断减少的趋势。这一趋势有助于CPU+ASIC、CPU+FPGA等技术路线通过软硬件的优化提高推理能力，也有助于国产算力通过增加低精度计算单元等方式，以较成熟的制程工艺实现可用的推理算力。消费级GPU产品和海外CSP企业的自研芯片同样被用于推理场景。英伟达和AMD的消费级GPU产品，同样具备接近千亿参数量级的生成式AI模型的推理能力，从侧面说明推理芯片的门槛相对较低。谷歌、微软、亚马逊、Meta等海外CSP企业在大规模采购英伟达数据中心GPU的同时，也在积极自研用于模型训练和推理的芯片，有望成为满足推理算力需求的另一种途径。我们认为：生成式AI的发展是一个不断迭代升级的过程，随着国内生成式AI模型的质量持续提升，有望出现更多优质应用，从而带动推理算力需求快速上升。在推理场景下，算力的性价比显得更为重要。在供给端有所限制的情况下，国产推理芯片有望受益于国内生成式AI应用的落地，迎来重大发展机遇。建议关注： 1）AI推理芯片：寒武纪、海光信息。 2）算力服务器：浪潮信息、中科曙光、神州数码、工业富联。风险提示：人工智能技术落地和商业化不及预期；产业政策转变；宏观经济不及预期。证券研究报告 2024年05月09日行业评级超配前次评级超配评级变动维持近一年行业走势计算机沪深300 7% -1% -9% -17% -25% -33% -41% 2023-052023-092024-012024-05 相对表现 1个月 3个月 12个月计算机 -1.51 9.53 -27.21 沪深300 3.71 8.90 -9.02 分析师郑宏达 S0800524020001 13918906471 zhenghongda@research.xbmail.com.cn 相关研究计算机：为什么我们对2024年全年计算机行业的业绩更乐观了？—计算机行业2023年年报与2024年一季报总结2024-05-09 计算机：国内算力进入业绩兑现期，继续看好算力和端侧智能—计算机行业2024年5 月研究观点2024-05-04 计算机：计算机行业2024Q1持仓分析：低配幅度扩大—计算机行业周观点第9期2024-04-27 索引内容目录一、生成式AI推理需求旺盛，量化技术升级降低推理门槛3 1.1生成式AI模型持续迭代，推理需求旺盛3 1.2量化技术有助于降低推理的算力门槛3 二、推理芯片多种技术路线齐头并进，推动生成式AI落地4 2.1英伟达、AMD长期关注GPU的推理算力4 2.2海外CSP自研芯片，或将另辟蹊径5 2.3国产推理芯片市场潜力大，有望迎来重大机遇7 三、建议关注8 四、风险提示8 图表目录图1：生成式AI推动全球算力基础设施加速发展3 图2：量化技术有助于降低模型的推理算力成本4 图3：量化技术在模型部署中不可或缺4 图4：量化技术在模型部署中不可或缺5 图5：谷歌TPU集群已成功进行部署6 图6：TPU在训练速度上提升明显6 图7：性价比是决定TPU能否放量的关键因素6 图8：AzureMaia100已在进行测试7 图9：Graviton4采用ARM架构7 图10：寒武纪MLU370采用了Chiplet技术8 图11：昇腾已形成较为完整的下游产品系列8 表1：英伟达新一代Blackwell架构重点增强了FP8、FP4精度下的吞吐量5 表2：2023年以来运营商加速采购AI服务器7 表3：部分国产推理芯片INT8峰值算力与英伟达产品较为接近8 一、生成式AI推理需求旺盛，量化技术升级降低推理门槛 1.1生成式AI模型持续迭代，推理需求旺盛生成式AI模型性能不断提升，或处于更大规模放量前夕，推理需求有望高速增长。OpenAI于2022年11月推出生成式AI应用ChatGPT，在不到两个月的时间内，月活跃用户数突破1亿人。以ChatGPT为代表的生成式AI应用快速迭代、落地，模型推理的算力需求逐渐显现。随着生成式AI模型参数和Token数量不断增加，模型单次推理所需的算力持续攀升。同时，ChatGPT、Gemini、Kimi等聊天机器人的用户数逐步上升，MicrosoftCopilot、AdobeFirefly、WPSAI等办公助手持续落地，用户侧的流量不断上升，推理算力需求有望高速增长。图1：生成式AI推动全球算力基础设施加速发展资料来源：IDC&浪潮信息《2023-2024年中国人工智能计算力发展评估报告》，西部证券研发中心推理算力未来有望超过训练算力，最终训练芯片与推理芯片数量之比或达到2：8。目前生成式AI模型仍处于快速迭代，各厂商相互追赶的阶段，随着模型性能的逐步稳定和应用的陆续落地，算力的推理需求有望超过训练需求。而推理需求与训练需求在计算量、精度要求以及部署位置上存在差异。一方面，训练需求的精度要求较推理需求更高，因此训练芯片也就要求有更高的精度范围，在高精度场景下同样需要具备较强的性能。另一方面，训练芯片主要部署在数据中心（云侧），推理芯片则会兼顾云侧与边缘侧的算力需求。根据施耐德电气的测算，到2028年人工智能的推理负载有望占比达到85%。我们认为：考虑到云侧和边缘侧巨大的推理需求，训练芯片与推理芯片数量之比或将达到2：8。 1.2量化技术有助于降低推理的算力门槛量化技术（Quantization）是决定生成式AI推理成本的关键因素，量化技术的迭代升级有望降低推理门槛。深度神经网络模型存在参数冗余的问题，所有参数均使用32位浮点型数值（FP32），但神经网络模型实际使用的精度远不到FP32所表示的范围。如果针对低位宽的数值计算进行优化，使用低数值进行大规模矩阵运算，模型推理过程会有明显的加速效果。图2：量化技术有助于降低模型的推理算力成本资料来源：工程科学学报《深度神经网络模型量化方法综述》，西部证券研发中心 *图(a)表示全精度矩阵乘法运算，图(b)表示量化后的低精度矩阵乘法运算。模型量化指的是通过降低网络模型参数数值表示所需的位宽，在不影响模型任务性能情况下达到降低精度和内存容量的效果。假设将一个参数全部是FP32的神经网络的权值和激活值全部量化到16位整型数值（INT16）或8位整型数值（INT8），其内存占用和精度理论上均可减少至原先的四分之一，如果部署的处理器低精度运算较快，则能够有效加速推理过程。目前INT8量化技术已比较成熟，Google的TensorFlow、英伟达的TensorRT、Meta的PyTorch等模型部署框架均已支持INT8量化技术。图3：量化技术在模型部署中不可或缺资料来源：英伟达公司官网，西部证券研发中心量化技术快速发展，为CPU+ASIC、CPU+FPGA等技术路线的发展，以及国产算力的放量提供了技术基础。人工智能模型的量化技术从最初的FP16量化快速发展到目前应用最成熟的INT8量化，再到正在进一步研究中的INT4量化，呈现出数据精度逐步降低，内存或显存占用不断减少的趋势。这一趋势有助于CPU+ASIC、CPU+FPGA等技术路线通过软硬件的优化提高推理能力，也有助于国产算力通过增加低精度计算单元等方式，以较成熟的制程工艺实现可用的推理算力。二、推理芯片多种技术路线齐头并进，推动生成式AI落地 2.1英伟达、AMD长期关注GPU的推理算力英伟达和AMD的数据中心GPU产品，在关注训练场景的同时，也始终关注推理场景的技术革新。2022年以来，英伟达先后推出了Hopper、Blackwell两代GPU架构，较此前的Ampere架构增强了FP8甚至是FP4精度下的吞吐量，能够更高效地完成生成式AI模型的推理任务。AMD新推出的MI300X也较H100提升了FP8精度下的计算能力。以英伟达和AMD为代表的数据中心GPU厂商的技术发展趋势，进一步表明量化技术的迭代发展对模型推理算力需求有重要的影响。表1：英伟达新一代Blackwell架构重点增强了FP8、FP4精度下的吞吐量 HGXB200 HGXB100 HGXH200 HGXH100 GPU数量 8-GPU 8-GPU 8-GPU 8-GPU FP32（FLOPS） 18P 14P 8P 8P FP16（FLOPS） 36P 28P 16P 16P FP8（FLOPS） 72P 56P 32P 32P FP4（FLOPS） 144P 112P 32P 32P 内存 1.5TB 1.5TB 1.1TB 640GB NVLink版本第五代第五代第四代第四代 NVSwitch版本第四代第四代第三代第三代 NVSwitchGPU-to-GPU带宽 1.8TB/s 1.8TB/s 900GB/s 900GB/s 总带宽 14.4TB/s 14.4TB/s 7.2TB/s 7.2TB/s 资料来源：英伟达公司官网，西部证券研发中心另一方面，英伟达和AMD的消费级GPU产品，同样具备接近千亿参数量级的生成式AI模型的推理能力，从侧面说明推理芯片的门槛相对较低。根据公开资料，Llama-27B和13B模型能够成功部署在8卡英伟达RTX3090服务器上，Llama-270B则能够在8卡英伟达RTX4090服务器上进行部署。尽管在推理性能上有一定的损失，但消费级GPU仍有完成接近千亿参数量级的生成式AI模型的能力。图4：量化技术在模型部署中不可或缺资料来源：DissectingtheRuntimePerformanceoftheTraining,Fine-tuning,andInferenceofLargeLanguageModels，西部证券研发中心 2.2海外CSP自研芯片，或将另辟蹊径谷歌、微软、亚马逊、Meta等海外CSP企业在大规模采购英伟达数据中心GPU的同时，也在积极自研用于模型训练和推理的芯片，有望成为满足推理算力需求的另一种途径。与英伟达和AMD的数据中心GPU类似，海外CSP自研芯片同样关注算力集群的规模化和扩展性。同时，由于面向AI场景的算力芯片与算法间存在紧密联系，海外CSP重视算法与算力芯片间的协同设计，通过支持新一代量化技术的数据精度、部署模型关键算法的直接专用加速器等方法，进一步提高推理性能。图5：谷歌TPU集群已成功进行部署资料来源：36氪，西部证券研发中心谷歌于2023年先后发布了TPU（TensorProcessingUnit）v5e和TPUv5p两款ASIC芯片，重点提升了训练速度和推理的性价比，并对PyTorch、TensorFlow等先进框架进行了集成。TPUv5e和TPUv5p相较于TPUv4，在训练速度上都有接近2倍左右的提升，单位

点击免费查看完整报告

你可能感兴趣

人工智能系列报告（四）算力系列报告（一）：推理芯片，生成式AI驱动，或迎来重大机遇-西部证券

结构概览：

主要亮点：

结论：

你可能感兴趣

计算机行业人工智能系列报告：华为全球首款AI移动芯片，AI芯片产业链迎来投资大机遇

电子行业“AI的裂变时刻”系列报告9：对国产推理算力芯片厂商的启示，假如L40S使用HBM显存？

电子行业：生成式AI驱动算力芯片腾飞

计算机行业深度报告：人工智能研究系列-AI芯片市场正快速起航，国内边缘芯片面临更大机遇

电子设备行业深度研究AI系列报告(01)：AGI驱动算力芯片增长，国产芯片加速替代