算力重构:从模型训练迈向推理主导的新时代 核心观点 ⚫算力从训练走向推理,步入增长新周期。当前大模型训练数据量增长放缓、边际效益递减,训练算力逐步转向“精耕细作”。随着大模型能力全面超越人类基准,应用边界持续拓展,叠加推理成本因技术优化出现断崖式下跌,进一步刺激了推理需求爆发,算力结构已开始向推理侧倾斜。展望未来,多模态交互带来推理密度指数级提升,Agent的普及引发推理任务爆发增长,二者将成为推动推理算力非线性爆发的核心引擎,推理算力占比将持续攀升,成为算力增长的主要驱动力。 ⚫Agent时代,底层算力架构与云服务模式迎来重塑。硬件层面,CPU迎来价值重估,逐步从幕后的调度角色转向前台核心承载,成为处理高度分支化任务、承载海量KV-Cache的最优载体,直接推动服务器向多核化、大内存规格迭代升级;与此同时,GPU的性能瓶颈已从算力峰值转向显存带宽。云服务层面,商业模式从传统的资源租赁模式,加速向“MaaS(模型即服务)与Agent编排”的全新范式跃迁;行业竞争核心也从单纯的算力规模比拼,转向工具链生态的综合构建。阿里云、百度云等头部厂商也纷纷开启涨价。云厂商正从基础资源提供商,加速转变为智能体生态的集成商与综合承包商。 浦俊懿执业证书编号:S0860514050004pujunyi@orientsec.com.cn021-63326320 陈超执业证书编号:S0860521050002chenchao3@orientsec.com.cn021-63326320 ⚫存储架构创新成为新趋势。在推理AI时代,算力中心核心挑战从之前的算力为主逐步转向存储与带宽效率,KV缓存对存储架构提出新要求,存储架构的创新带来新机会。英伟达在2026 CES推出ICMS AI原生存储平台,新增G3.5闪存层优化KV缓存管理,依托BlueField-4 DPU实现大容量与高速传输,多家存储厂商参与构建;其还推进SCADA计划提升存储效率,cuDF、cuVS数据加速库获国外主流云平台采用,而国内星环科技也与英伟达合作研发GPU数据库,共同推动AI推理与数据处理降本增效。 。投资建议与投资标的 算力进入推理时代,算力链各个环节有望不断受益,我们建议投资者关注芯片、云服务、IDC等等领域标的。 ⚫芯片端(GPU&CPU):相关公司包括海光信息(688041,买入)、寒武纪(688256,未评级)、禾盛新材(002290,未评级); ⚫云服务&IDC:相关标的为首都在线(300846,未评级)、东阳光(600673,未评级)、豫能控股(001896,未评级)、网宿科技(300017,未评级)、优刻得-W(688158,未评级)等; ⚫服务器:相关标的为浪潮信息(000977,未评级)、中科曙光(603019,买入)、华勤技术(603296,买入)等; ⚫数据库:相关标的为达梦数据(688692,未评级)、星环科技-U(688031,未评级) 风险提示 AI应用推进不及预期风险;行业竞争加剧风险; 目录 一、从训练走向推理,算力步入增长新周期...................................................4 1.1训练算力渐到瓶颈,推理算力崭露峥嵘........................................................................41.2大模型提质降本,应用侧爆发在即...............................................................................5 二、推理时代,Agent爆发重构核心算力.......................................................7 2.1 CPU:从“幕后调度”到“前台执行”.................................................................................72.2 GPU:推理需求结构化增长,显存带宽成新的性能边界..............................................82.3云服务:Agent场景下商业模式迎来转型.....................................................................9 三、AI存储架构发生革新,数据处理迎来新范式.........................................10 投资建议......................................................................................................14 风险提示......................................................................................................14 图表目录 图1:近年来模型训练数据量增量逐渐放缓..................................................................................4图2:大模型训练成本逐步抬升....................................................................................................4图3:全球人工智能(AI)全球市场规模及预测(亿元).............................................................5图4:选定的人工智能指数技术性能比较基准与人类表现对比(基本赶超)................................5图5:2022–2024年典型大模型的推理成本断崖降低.................................................................6图6:中国企业未来智能体关键数量预测.....................................................................................7图7:不同Agent框架下CPU与GPU的运行时延分析...............................................................8图8:OpenClaw的大模型调用量月榜........................................................................................8图9:阿里云部分产品调价.........................................................................................................10图10:KV缓存从HBM卸载到CPU内存、本地SSD或远程网络存储.....................................11图11:KV缓存分为从GPUHBM到共享存储的4层架构.........................................................11图12:英伟达推出推理上下文内存平台(ICMS),提升推理性能和效率...................................12图13:英伟达与Dell、HPE等十余家合作伙伴构建下一代AI存储平台....................................13图14:英伟达推出数据加速库cuDF、cuVS加速结构化、非结构化数据处理...........................13图15:星环科技GPU数据库产品大幅提升数据处理效率..........................................................14 一、从训练走向推理,算力步入增长新周期 1.1训练算力渐到瓶颈,推理算力崭露峥嵘 模型训练数据量增长放缓,训练算力迈向“精耕细作”。自2020年GPT-3以1750亿参数开启大模型时代后,大模型参数数量快速攀升至万亿规模,训练数据量也相应攀升,对应训练算力投入也随之快速增长。尽管大模型训练数据量和训练算力的绝对投入仍在不断增加,但训练的边际效益却在递减。这一方面受限于互联网高质量人类数据的逐渐耗尽,导致模型面临“数据墙”挑战;另一方面,动辄数亿甚至数十亿美元的训练成本与性能提升不成比例,一味提升训练数据量规模的经济性变弱,大模型训练更加注重成效比,使得训练算力投入的增长逐渐放缓。由于训练算力增长逐渐趋缓,整体算力重心开始转移。 数据来源:《人工智能产业发展研究报告》,东方证券研究所 全球人工智能总投入仍在快速上升。随着生成式AI在千行百业的深度渗透,底层基础设施建设进入白热化,Gartner预测,2026年全球人工智能(AI)总支出将达到2.53万亿美元,同比增长44%,预计27年支出增长31%。另外根据Precedence Research市场预测,2023年至2030年全球人工智能(AI)市场有望实现超过35%的复合增长率,全球AI算力规模也处于增长快车道。 算力结构向推理侧逐渐倾斜。随着大模型从实验室走向消费市场,支撑数亿用户实时交互、生成内容的推理算力需求迎来井喷,算力消耗已迈入“推理时代”。根据德勤报告预测,算力推理端工作负债2026年占所有计算量约三分之二,2025年约占一半,2023年约占三分之一,推理算力占比呈现逐年上升趋势。我们认为当前AI正加速向应用侧渗透,在整体算力需求量快速增长的背景下,推理端算力占比有望不断提升。 1.2大模型提质降本,应用侧爆发在即 大模型能力不断跃升,较人类基准实现全面跨越。过去大模型的进步主要体现在图像分类、基础文本理解等通用任务上。然而,2024至2026年间的质变在于极端复杂认知基准的突破。斯坦福《2025年人工智能指数报告》显示,人工智能系统相对于人类基线在8类比较基准(如图像分类、基础阅读理解等)基本实现了超越。我们认为大模型能力的跃升,拓展了AI应用的边界,从而进一步增加推理算力的需求。 有关分析师的申明,见本报告最后部分。其他重要信息披露见分析师申明之后部分,或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。 推理成本断崖下跌,大模型应用进入普惠时代。现有技术范式的精进直接拉低了AI的门槛。随着蒸馏技术、量化算法以及类似MoE(混合专家模型)架构的成熟,大模型已不再单纯依赖参数规模的暴力堆叠。通过更高效率的训练与推理,百万Token的调用成本已从美元时代跨入“分厘时代”。Epoch AI估计,根据任务不同,大语言模型的推理成本每年快速下降。如在MMLU测试(评估语言模型性能的常用比较基准)中达到GPT-3.5水平的模型,近年来推理成本大幅下降,其他主流模型也呈现类似趋势,部分国产旗舰模型甚至实现了较两年前近百倍的性价比提升。我们认为推理成本的下降有望触发“杰文斯悖论”,即低单价刺激超大规模的需求爆发,将进一步带动推理需求的提升。 多模态与Agent有望成为未来推理算力增长的重要引擎。多模态交互实现了推理密度的指数级跃升。相比于纯文本处理,多模态模型在处理图像、音频尤其是实时视频流时,每一帧数据所包含的信息维度和计算复杂度远超文本Token。这种从一维向多维的进化,使得单次交互所需的推理算力增加