证券研究报告投资策略 推理算力需求持续增长,ASIC端侧应用前景广阔 半导体行业研究 分析师:吴起涤执业登记编号:A0190523020001wuqidiydcomcn分析师:赵毅轩执业登记编号:A0190124060001zhaoyixuanydcomcn 上证指数与万德芯片概念指数走势 上证指数与万德芯片概念指数走势 200015001000 500000 500 1000 上证指数万德芯片概念指数 资料来源:Wind,源达信息证券研究所 投资要点 推理算力需求扩容 近年来大模型持续迭代,大模型参数规模总体呈现增加趋势,参数增加带动算力需求扩容。ChatGPT35加速了生成式人工智能的商业化进程,实现注册用户数量破亿仅耗时两个月,微软、谷歌等科技巨头纷纷接入,之后大模型热度持续火爆,带动算力需求激增。DeepseekR1问世推动大模型平价化,降低了大模型开发成本,利于为下游端侧和应用侧打开市场空间,下游爆发同样将催生大量算力需求,并推动算力需求由训练端向推理端转移。据IDC预测,推理服务器的工作负载占比预计由2020年的515逐年增加至2026年的622,中国人工智能服务器工作负载结构中的推理算力占比总体呈现增加趋势。 Deepseek推动大模型平价化,端侧,应用侧商业化进程有望提速 通过一系列算法优化,DeepseekV3相较于同类模型,训练成本大幅下降,完成训练仅耗时不到两个月,按H800芯片算力测算,DeepseekV3预训练阶段的训练时长为2664万GPU小时,上下文扩展训练耗时119万GPU小时,后训练阶段耗时5000GPU小时,假设H800每小时的租赁价格为2美元,则模型的总训练成本为5576万美元,训练成本仅为GPT4o的十分之一。 ASIC适于端侧部署,市场空间广阔 本地推理不仅可以降低延时、提高吞吐量,摆脱网络限制,还有助于保护数据安全和用户隐私,终端推理任务的本地化运行或是未来的发展趋势,本地推理需求的增加将促进ASIC市场需求扩容。 ASIC芯片专门用来优化神经网络推理或者矩阵运算任务,专注于特定用途或特定模型,相较GPU在功耗、可靠性、性能、成本等方面具备优势,因此更适于在端侧和用户侧部署,如智驾、AI眼镜、智能家居等。随着大模型平价化,预期AI产品将在更多应用场景下实现商业落地,ASIC芯片具备广阔的市场前景。 投资建议 建议关注产品矩阵丰富,下游应用领域覆盖全面的芯原股份和寒武纪。 风险提示 建议关注技术迭代风险、下游需求不及预期的风险和中美贸易摩擦加剧的风险。 请阅读最后评级说明和重要声明 目录 一、应用场景有别,性能各有侧重 二、推理端算力需求扩容4 1参数数量总体呈现增加趋势4 2大模型火热,用户量激增6 3Deepseek推动大模型平价化,利好端侧、应用侧爆发6 三、终端定制化特点突出,看好ASIC芯片发展前景7 四、投资建议11 1、芯原股份11 2、寒武纪11 五、风险提示12 图表目录 图1:云端部署、边缘部署、终端部署3 图2:训练与推理环节的性能需求不同3 图3:中国人工智能服务器工作负载预测,202020264 图4:参数量与大模型性能5 图5:增长1亿用户花费时间6 图7:推理模型输入输出价格(元1MTokens)7 图8:GeForceRTX508 图9:ASIC芯片性能优势8 图10:20212025EASIC全球市场规模(亿美元)10 图11:20202024营业总收入(亿元)11 图12:20202024扣非归母净利润(亿元)11 图13:20202024营业总收入(亿元)12 图14:20202024扣非归母净利润(亿元)12 表1:不同模型参数规模5 表2:DeepseekV3模型训练成本7 表3:英伟达主流产品能耗(W)9 2 为应对不同应用场景下的使用需求,芯片可以在云端、边缘或是终端进行部署。大模型训练需要大量算力资源,一般在云端利用大规模算力集群进行训练,但随着大模型提供的服务由文本向图片、视频等多模态扩展,使用人数不断增加,云端推理服务对算力的需求也在不断提升。另一种芯片部署方式为边缘部署,它允许在生成数据的设备附近进行计算,而不是在集中的云计算设施或远程数据中心进行计算。这种本地化处理方式使得设备能够在几毫秒内做出决策,而无需互联网连接或云服务的辅助。随着AI眼镜、手机、音箱等端侧需求的增长,及时人机交互、数据的实时采集、低时延等需求逐渐凸显,适应轻量化设备的终端部署迎来更大的发展机会。 图1:云端部署、边缘部署、终端部署 资料来源:前瞻产业研究院 训练需要大量地向模型输入训练数据,推理结果,还要调整模型参数和偏置值,如此往复直到模型收敛满足性能要求为止。而推理仅需要向模型输入非训练数据让模型计算出结果即可,推理和训练在工作中有重合的部分,推理可简单理解为简化版的训练过程。训练芯片更关注计算精度、算力等性能指标,而推理芯片更加看重低时延、低能耗、低成本、高吞吐量等指标。 图2:训练与推理环节的性能需求不同 资料来源:源达信息证券研究所 近年来大模型持续迭代,大模型参数规模总体呈现增加趋势,参数增加带动算力需求扩容。另外,ChatGPT35的问世加速了生成式人工智能的商业化进程,实现注册用户数量破亿仅仅耗时两个月,微软、谷歌等科技巨头纷纷接入,之后大模型热度持续火爆,带动算力需求扩容。Deepseek问世推动大模型平价化,降低了大模型开发成本,利于为下游端侧和应用侧打开市场空间,下游爆发同样将催生大量算力需求,并推动算力需求由训练端向推理端转移。据IDC预测,推理的服务器工作负载占比预计由2020年的515逐年增加至2026年的622,中国人工智能服务器工作负载结构中的推理算力占比总体呈现增加趋势。 中国人工智能服务器工作负载预测,20202026 推理训练 图3:中国人工智能服务器工作负载预测,20202026 12000100008000600040002000000 2020 2021 202220232024E2025E2026E 资料来源:IDC,源达信息证券研究所 1参数数量总体呈现增加趋势 大模型的参数量与算力消耗呈现显著的正相关关系,当参数量不断增加,模型运行对硬件性能要求会大幅增加,能耗及时间成本也会随之上升,性能指标的提升也将同时推动模型优化技术的发展。OpenAI团队经研究发现,模型性能与模型参数量、训练数据量和计算资源相关,通常大模型性能随着参数量、训练数据量和计算资源的增加而提升,这种现象被称为“ScalingLaws”。具体来说,参数量的增加与性能提升之间存在幂律关系,即参数数量增加的对数与性能提升之间呈近似线性关系。 图4:参数量与大模型性能 资料来源:《ScalingLawsforNeuralLanguageModels》Kaplanetal2020 近年来大模型快速迭代,大模型的参数量总体呈现上升趋势,以OpenAI发布的大模型为例,公司2018年发布的首款大模型GPT1参数量为117亿,2019年发布GPT2大模型参数规模达到15亿,2019年发布的GPT3参数规模进一步达到1750亿,2023年发布GPT4大模型参数规模突破万亿规模,达到17600亿,近似呈现指数级增长,2025年发布的GPT5参数规模达到20000亿,参数量继续增加但与GPT4保持在同一数量级,参数规模有收敛的趋势。将主要大模型按照发布时间进行排序,参数量呈现出先爆发增长,后趋于收敛的类似变化。参数量与算力需求关系密切,参数量越大,模型复杂度越高,对算力的需求越大。以大模型训练为例,模型训练的总运算量与模型参数规模和toke数量的乘积有关,给定单卡运算性能和拟完成训练的时间,参数量越大意味所需芯片数量越多,算力需求越大。 表1:不同模型参数规模 Models Release time Developers ParametersizeBillion GPT1 2018 OpenAI 117 BERT 2018 Google 340 GPT2 2019 OpenAI 1500 Fairseq 2020 Meta 13000 GPT3 2020 OpenAI 175000 GlaM 2021 Google 120000 LaMDA 2022 Google 137000 SparkDesk 2023 iFLYTEK 170000 GPT4 2023 OpenAI 1760000 Grok3 2025 xAI 1200000 GPT5 2025 OpenAI 2000000 资料来源:《大语言模型研究现状及趋势》,华尔街见闻,源达信息证券研究所 2大模型火热,用户量激增 ChatGPT35于2022年重磅推出后收获了极好的市场反馈,发布当天便吸引了超过10万用户,五天后注册人数突破百万,获得1亿用户仅用时两个月,而知名应用软件TikTok达成1亿用户共耗时9个月,微信耗时433天。随后OpenAI于2023年3月发布了不仅能够处理多模态数据且智能水平大幅提高的ChatGPT4大模型,微软、摩根士丹利等一众名企纷纷接入,ChatGPT实现了AI大模型由实验室到商业化应用的历史性转变,大模型热度继续升温,Meta跟进开源Lama大模型,百度发布文心一言大模型、阿里推出通义千问大模型、科大讯飞发布星火大模型,大模型赛道百花齐放。2025年1月20日,Deepseek发布重大更新推出DeepseekR1模型,用户数量出现爆发式增长,2024年12月底至2025年1月底,用户数由347万猛增至近12亿,实现1亿用户的增长仅用时7天,2月8日国内APP端日活用户达到3494万,跃居国内1月月均活跃用户数榜首。大模型拥有极高人气,用户规模或将持续增加,推理端算力需求将不断增长。 图5:增长1亿用户花费时间 资料来源:AI产品榜 3Deepseek推动大模型平价化,利好端侧、应用侧爆发 大模型训练成本高企,ChatGPT4的训练使用了约25000块A100GPU,以215e25FLOPS的计算量训练了90至100天。若H100每小时的租用成本为1美元,单次训练成本高达6300万美元。为满足大模型训练的算力需求,多家AI巨头斥巨资打造万卡集群,即由一万张及以上的计算加速卡(如GPU、TPU或其他专用AI加速芯片)组成的高性能计算系统,用以支持千亿级甚至万亿级参数规模的大模型训练,而高端算力卡供应几乎被英伟达一家公司垄断,H100的官方售价大约在3000美元左右,由于供需失衡和缺货原因,市场售价远高于官方价格,英伟达毛利率高达70以上。高昂的芯片价格拉升了大模型的训练成本,不利于以大模型为底层架构的应用侧及端侧的商业化,限制了AI产业的商业化进程。 通过一系列算法优化,DeepseekV3相较于同类模型,训练成本大幅下降,完成训练仅耗时不到两个月,按H800芯片算力测算,DeepseekV3预训练阶段训练时长为2664万GPU小时,上下文扩展训练耗时119万GPU小时,后训练阶段耗时5000GPU小时,假设H800每小时的租赁价格为2美元,总训练成本为5576万美元,训练成本仅为GPT4o的十分之一。 表2:DeepseekV3模型训练成本 训练成本 预训练 上下文扩展 后训练 H800GPU小时(万) 2664000 11900 0500 美元(百万) 5328 0238 5576 资料来源:财联社,源达信息证券研究所 DeepseekV3模型和DeepseekR1模型在保证模型性能的前提下,通过优化算法减少训练成本实现了API服务价格的显著下降,推动大模型平价化。DeepseekV3模型API服务定价为每百万输入Token05元(缓存命中),每百万输入Token2元(缓存未命中),每百万Token输出价格为8元。DeepseekR1模型每百万tokens输入为1元(缓存命中),百万tokens输入为4元(缓存未命中),每百万tokens输