行业专题报告|计算机 推理芯片:生成式AI驱动,或迎来重大机遇 人工智能系列报告(四)/算力系列报告(一) 核心结论 生成式AI模型性能不断提升,或处于更大规模放量前夕,推理需求有望高速增长。OpenAI于2022年11月推出生成式AI应用ChatGPT,在不到两个月的时间内,月活跃用户数突破1亿人。以ChatGPT为代表的生成式AI应用快速迭代、落地,模型推理的算力需求逐渐显现。随着生成式AI模型参数和Token数量不断增加,模型单次推理所需的算力持续攀升。同时,ChatGPT、Gemini、Kimi等聊天机器人的用户数逐步上升,MicrosoftCopilot、AdobeFirefly、WPSAI等办公助手持续落地,用户侧的流量不断上升,推理算力未来有望超过训练算力,最终训练芯片与推理芯片数量之比或达到2:8。 量化技术(Quantization)是决定生成式AI推理成本的关键因素,量化技术的迭代升级有望降低推理门槛,为CPU+ASIC、CPU+FPGA等技术路线的发展,以及国产算力的放量提供了技术基础。人工智能模型的量化技术从最初的FP16量化快速发展到目前应用最成熟的INT8量化,再到正在进一步研究中的INT4量化,呈现出数据精度逐步降低,内存或显存占用不断减少的趋势。这一趋势有助于CPU+ASIC、CPU+FPGA等技术路线通过软硬件的优化提高推理能力,也有助于国产算力通过增加低精度计算单元等方式,以较成熟的制程工艺实现可用的推理算力。 消费级GPU产品和海外CSP企业的自研芯片同样被用于推理场景。英伟达和AMD的消费级GPU产品,同样具备接近千亿参数量级的生成式AI模型的推理能力,从侧面说明推理芯片的门槛相对较低。谷歌、微软、亚马逊、Meta等海外CSP企业在大规模采购英伟达数据中心GPU的同时,也在积极自研用于模型训练和推理的芯片,有望成为满足推理算力需求的另一种途径。 我们认为:生成式AI的发展是一个不断迭代升级的过程,随着国内生成式AI模型的质量持续提升,有望出现更多优质应用,从而带动推理算力需求快速上升。在推理场景下,算力的性价比显得更为重要。在供给端有所限制的情况下,国产推理芯片有望受益于国内生成式AI应用的落地,迎来重大发展机遇。 建议关注: 1)AI推理芯片:寒武纪、海光信息。 2)算力服务器:浪潮信息、中科曙光、神州数码、工业富联。 风险提示:人工智能技术落地和商业化不及预期;产业政策转变;宏观经济不及预期。 证券研究报告 2024年05月09日 行业评级超配 前次评级超配 评级变动维持近一年行业走势 计算机沪深300 7% -1% -9% -17% -25% -33% -41% 2023-052023-092024-012024-05 相对表现 1个月 3个月 12个月 计算机 -1.51 9.53 -27.21 沪深300 3.71 8.90 -9.02 分析师 郑宏达 S0800524020001 13918906471 zhenghongda@research.xbmail.com.cn 相关研究 计算机:为什么我们对2024年全年计算机行 业的业绩更乐观了?—计算机行业2023年年 报与2024年一季报总结2024-05-09 计算机:国内算力进入业绩兑现期,继续看好算力和端侧智能—计算机行业2024年5 月研究观点2024-05-04 计算机:计算机行业2024Q1持仓分析:低配幅度扩大—计算机行业周观点第9期2024-04-27 索引 内容目录 一、生成式AI推理需求旺盛,量化技术升级降低推理门槛3 1.1生成式AI模型持续迭代,推理需求旺盛3 1.2量化技术有助于降低推理的算力门槛3 二、推理芯片多种技术路线齐头并进,推动生成式AI落地4 2.1英伟达、AMD长期关注GPU的推理算力4 2.2海外CSP自研芯片,或将另辟蹊径5 2.3国产推理芯片市场潜力大,有望迎来重大机遇7 三、建议关注8 四、风险提示8 图表目录 图1:生成式AI推动全球算力基础设施加速发展3 图2:量化技术有助于降低模型的推理算力成本4 图3:量化技术在模型部署中不可或缺4 图4:量化技术在模型部署中不可或缺5 图5:谷歌TPU集群已成功进行部署6 图6:TPU在训练速度上提升明显6 图7:性价比是决定TPU能否放量的关键因素6 图8:AzureMaia100已在进行测试7 图9:Graviton4采用ARM架构7 图10:寒武纪MLU370采用了Chiplet技术8 图11:昇腾已形成较为完整的下游产品系列8 表1:英伟达新一代Blackwell架构重点增强了FP8、FP4精度下的吞吐量5 表2:2023年以来运营商加速采购AI服务器7 表3:部分国产推理芯片INT8峰值算力与英伟达产品较为接近8 一、生成式AI推理需求旺盛,量化技术升级降低推理门槛 1.1生成式AI模型持续迭代,推理需求旺盛 生成式AI模型性能不断提升,或处于更大规模放量前夕,推理需求有望高速增长。OpenAI于2022年11月推出生成式AI应用ChatGPT,在不到两个月的时间内,月活跃用户数突破1亿人。以ChatGPT为代表的生成式AI应用快速迭代、落地,模型推理的算力需求逐渐显现。随着生成式AI模型参数和Token数量不断增加,模型单次推理所需的算力持续攀升。同时,ChatGPT、Gemini、Kimi等聊天机器人的用户数逐步上升,MicrosoftCopilot、AdobeFirefly、WPSAI等办公助手持续落地,用户侧的流量不断上升,推理算力需求有望高速增长。 图1:生成式AI推动全球算力基础设施加速发展 资料来源:IDC&浪潮信息《2023-2024年中国人工智能计算力发展评估报告》,西部证券研发中心 推理算力未来有望超过训练算力,最终训练芯片与推理芯片数量之比或达到2:8。目前生成式AI模型仍处于快速迭代,各厂商相互追赶的阶段,随着模型性能的逐步稳定和应用的陆续落地,算力的推理需求有望超过训练需求。而推理需求与训练需求在计算量、精度要求以及部署位置上存在差异。一方面,训练需求的精度要求较推理需求更高,因此训练芯片也就要求有更高的精度范围,在高精度场景下同样需要具备较强的性能。另一方面,训练芯片主要部署在数据中心(云侧),推理芯片则会兼顾云侧与边缘侧的算力需求。根据施耐德电气的测算,到2028年人工智能的推理负载有望占比达到85%。我们认为:考虑到云侧和边缘侧巨大的推理需求,训练芯片与推理芯片数量之比或将达到2:8。 1.2量化技术有助于降低推理的算力门槛 量化技术(Quantization)是决定生成式AI推理成本的关键因素,量化技术的迭代升级有望降低推理门槛。深度神经网络模型存在参数冗余的问题,所有参数均使用32位浮点型数值(FP32),但神经网络模型实际使用的精度远不到FP32所表示的范围。如果针对低位宽的数值计算进行优化,使用低数值进行大规模矩阵运算,模型推理过程会有明显的加速效果。 图2:量化技术有助于降低模型的推理算力成本 资料来源:工程科学学报《深度神经网络模型量化方法综述》,西部证券研发中心 *图(a)表示全精度矩阵乘法运算,图(b)表示量化后的低精度矩阵乘法运算。 模型量化指的是通过降低网络模型参数数值表示所需的位宽,在不影响模型任务性能情况下达到降低精度和内存容量的效果。假设将一个参数全部是FP32的神经网络的权值和激活值全部量化到16位整型数值(INT16)或8位整型数值(INT8),其内存占用和精度理论上均可减少至原先的四分之一,如果部署的处理器低精度运算较快,则能够有效加速推理过程。目前INT8量化技术已比较成熟,Google的TensorFlow、英伟达的TensorRT、Meta的PyTorch等模型部署框架均已支持INT8量化技术。 图3:量化技术在模型部署中不可或缺 资料来源:英伟达公司官网,西部证券研发中心 量化技术快速发展,为CPU+ASIC、CPU+FPGA等技术路线的发展,以及国产算力的放量提供了技术基础。人工智能模型的量化技术从最初的FP16量化快速发展到目前应用最成熟的INT8量化,再到正在进一步研究中的INT4量化,呈现出数据精度逐步降低,内存或显存占用不断减少的趋势。这一趋势有助于CPU+ASIC、CPU+FPGA等技术路线通过软硬件的优化提高推理能力,也有助于国产算力通过增加低精度计算单元等方式,以较成熟的制程工艺实现可用的推理算力。 二、推理芯片多种技术路线齐头并进,推动生成式AI落地 2.1英伟达、AMD长期关注GPU的推理算力 英伟达和AMD的数据中心GPU产品,在关注训练场景的同时,也始终关注推理场景的 技术革新。2022年以来,英伟达先后推出了Hopper、Blackwell两代GPU架构,较此前的Ampere架构增强了FP8甚至是FP4精度下的吞吐量,能够更高效地完成生成式AI模型的推理任务。AMD新推出的MI300X也较H100提升了FP8精度下的计算能力。以英伟达和AMD为代表的数据中心GPU厂商的技术发展趋势,进一步表明量化技术的迭代发展对模型推理算力需求有重要的影响。 表1:英伟达新一代Blackwell架构重点增强了FP8、FP4精度下的吞吐量 HGXB200 HGXB100 HGXH200 HGXH100 GPU数量 8-GPU 8-GPU 8-GPU 8-GPU FP32(FLOPS) 18P 14P 8P 8P FP16(FLOPS) 36P 28P 16P 16P FP8(FLOPS) 72P 56P 32P 32P FP4(FLOPS) 144P 112P 32P 32P 内存 1.5TB 1.5TB 1.1TB 640GB NVLink版本 第五代 第五代 第四代 第四代 NVSwitch版本 第四代 第四代 第三代 第三代 NVSwitchGPU-to-GPU带宽 1.8TB/s 1.8TB/s 900GB/s 900GB/s 总带宽 14.4TB/s 14.4TB/s 7.2TB/s 7.2TB/s 资料来源:英伟达公司官网,西部证券研发中心 另一方面,英伟达和AMD的消费级GPU产品,同样具备接近千亿参数量级的生成式AI模型的推理能力,从侧面说明推理芯片的门槛相对较低。根据公开资料,Llama-27B和13B模型能够成功部署在8卡英伟达RTX3090服务器上,Llama-270B则能够在8卡英伟达RTX4090服务器上进行部署。尽管在推理性能上有一定的损失,但消费级GPU仍有完成接近千亿参数量级的生成式AI模型的能力。 图4:量化技术在模型部署中不可或缺 资料来源:DissectingtheRuntimePerformanceoftheTraining,Fine-tuning,andInferenceofLargeLanguageModels,西部证券 研发中心 2.2海外CSP自研芯片,或将另辟蹊径 谷歌、微软、亚马逊、Meta等海外CSP企业在大规模采购英伟达数据中心GPU的同时,也在积极自研用于模型训练和推理的芯片,有望成为满足推理算力需求的另一种途径。与英伟达和AMD的数据中心GPU类似,海外CSP自研芯片同样关注算力集群的规模化和扩展性。同时,由于面向AI场景的算力芯片与算法间存在紧密联系,海外CSP重视算法与算力芯片间的协同设计,通过支持新一代量化技术的数据精度、部署模型关键算法的直接专用加速器等方法,进一步提高推理性能。 图5:谷歌TPU集群已成功进行部署 资料来源:36氪,西部证券研发中心 谷歌于2023年先后发布了TPU(TensorProcessingUnit)v5e和TPUv5p两款ASIC芯片,重点提升了训练速度和推理的性价比,并对PyTorch、TensorFlow等先进框架进行了集成。TPUv5e和TPUv5p相较于TPUv4,在训练速度上都有接近2倍左右的提升,单位