您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国金证券]:2025AI行业前瞻报告:Al行业关键时刻:瓶颈与机遇并存 - 发现报告
当前位置:首页/行业研究/报告详情/

2025AI行业前瞻报告:Al行业关键时刻:瓶颈与机遇并存

信息技术2024-11-27刘道明、黄晓军、麦世学国金证券李***
AI智能总结
查看更多
2025AI行业前瞻报告:Al行业关键时刻:瓶颈与机遇并存

报告摘要: 2025年,AI将迎来模型与应用的双向奔赴: -模型侧,模型将朝大小模型互补的方向演进,聚焦增强推理能力以突破当前的ScalingLaw瓶颈。大型预训练市场逐渐收敛,由OpenAI、Meta的Llama、Mistral、阿里通义等主导,更多中小厂商则专注于特定任务的微调与 Agent业务。新兴技术路径如测试时训练、合成数据应用及感知量化训练将推动模型能力提升,而多模态融合模型在实时交互、音频与视觉生成领域展现出巨大潜力。 -应用侧,渗透率持续快速上升,ChatGPT活跃度持续攀升,视频生成模型如Runway和可灵国际版表现稳定。我们 持续看好如下应用方向:1)AI程序员在企业中得到广泛应用,显著提升开发效率;2)数据重要性大幅提升推动SaaS平台如Snowflake、Datadog和Databricks等业务高速增长;3)通用SaaS平台如ServiceNow和Salesforce受益于大企业AI投入增加;4)AI搜索有望在2025年诞生超级APP;5)AI眼镜作为综合体验最好的AI硬件新形态,预计将在2025年迎来大规模出货。 -算力系统,虽然英伟达最新的Blackwell架构算力芯片仍在云端具备绝对统治力,但是随着系统复杂性的快速提 升以及核心技术及零部件供给瓶颈,硬件迭代速度可能在未来趋缓。这将给AMD等竞争对手以及云厂商自研芯片带来更多的发展机会。 -电力基础设施,随着单数据中心规模的不断扩大,局部供电压力激增。独立于传统居民/工业电网的核电站成为潜 在最优解决方案。美国几大云厂亚马逊、谷歌、微软都在积极寻求核电解决方案。核电的落地速度成为制约AI进一步发展的重要因素。 -端侧AI,随着模型小型化趋势及应用场景的快速丰富,我们预计端侧AI在2025年也将迎来大发展。在硬件、软 件、生态、云等所有环节都可控并有所参与的手机厂商更容易成功,其中苹果、谷歌更为完整。苹果在硬件、软件、生态环境、云服务上具备极强竞争力。谷歌有原生安卓支持、Gemini强大的模型能力,但在硬件上自有品牌Pixel渗透率低,更多需要依赖三星端侧硬件拓展用户。 -AIPC领域:1)未来X86笔电市场竞争将会更为激烈,英特尔和AMD产品在性能、续航、适配性、生态方面各有 千秋。2)X86台式机领域,由于功耗的重要性大幅降低,AMD有望依靠更出色的CPU性能提升市占率;3)AIPC的渗透,重点看ARM芯片。苹果的优势最明显,高通XElite短时间内很难与苹果竞争ARM架构AI笔电的市场。未来英伟达&联发科合作研发的处理器也会带来更多看点。ARM架构芯片的成熟有望推动Windows操作系统向更适合AI的方向进化。 风险提示 芯片制程发展与良率不及预期 中美科技领域政策恶化 智能手机、PC销量不及预期 内容目录 一、AI模型趋势:大小模型互补,预训练市场快速收敛,ScalingLaw新方向增强推理需求3 1.1预训练和现实数据触顶,后训练时代将开启新的ScalingLaw方向3 1.2方向一:用推理代替思考3 1.3方向二:测试时训练5 1.4方向三:合成数据6 1.5方向四:模型量化逐渐失效7 1.6方向五:多模态融合模型发展空间大7 二、AI应用渗透率持续增长,落地场景多点开花9 2.1AI应用活跃度持续增长,应用场景得到认可,进入快速获客期9 2.2AI程序员是确定性的强需求11 2.3AI搜索是25年最有希望诞生超级APP的赛道12 2.4AI为通用型和数据类SaaS平台打开增长空间12 2.5AI眼镜是AI应用落地的最佳硬件,25年将迎来发布潮和出货量大增13 三、算力系统面临“木桶效应”挑战,供给端瓶颈或成主要矛盾15 3.1人工智能算力系统面临诸多挑战15 3.2单卡算力升级速率落后于模型迭代速率,Blackwell延后预示系统摩尔进一步降速15 3.3数据中心电力消耗呈指数级增长,核电或成最优解决方案18 四、大模型推理服务大规模部署,如何影响硬件市场?20 4.1大模型性能提升,推动推理算力需求加速增长20 4.2服务器推理:内存墙难破,HBM容量仍为竞争要点21 4.3端侧推理:单用户推理导致内存端高成本,端云结合将是未来趋势21 五、AI设备销量正在提升23 5.1AI手机焦点在于旗舰机23 5.2AIPC的竞争将会越发激烈26 5.3AI设备产业链随着AI加入将迎来更新换代29 六、智能驾驶&机器人行业正在摸索技术路径31 6.1智能驾驶:模块化方案与端到端方案之争31 6.2具身智能想要放量需要更实用的场景及更低的价格31 风险提醒32 一、AI模型趋势:大小模型互补,预训练市场快速收敛,ScalingLaw新方向增强推理需求 2024年大模型厂商推出模型的速度仍在加快,大模型与小模型共存仍是解决模型能力上限和端侧推理的方案,各大模型厂商也会推出几B到TB级别的模型。随着大型模型训练成本的不断提升,且有更多像Meta、Mixtral、阿里通义等公司的开源,模型预训练市场的玩家会快速缩小,针对特定任务的微调或者是Agent业务将会是更多中小模型厂商发展的重点。在当前算力和数据ScalingLaw放缓的情况下,找到新的ScalingLaw方向是明年模型发展的重点。 1.1预训练和现实数据触顶,后训练时代将开启新的ScalingLaw方向 从24年年初开始有论文提出模型能力提升速度随着参数规模的扩大而放缓,到11月份OpenAI前首席科学家Ilya在公开场合表示简单地增加数据和计算能力来扩大当前模型规模的时代已经结束。但是,预训练的scalinglaw放缓不代表大模型发展速度和算力需求的放缓,就像是芯片gate的实际尺寸停滞在20nm并不影响等效gate密度达到目前的3nm,广义的摩尔定律甚至比20年前更快,大模型也需要找到具有更高的投入回报比的新方向。 1.2方向一:用推理代替思考 OpenAI于2024年9月12日发布了新的AI模型系列o1,这是OpenAI首个具有"逻辑推理"能力的模型系列,特别擅长处理复杂的推理任务,尤其是在科学、技术、工程和数学(STEM)领域的问题,在这些领域其评测分数都远远超过GPT-4o。o1模型将计算资源从大规模预训练数据集重新分配到训练和推理阶段,增强了复杂推理能力,在费用和成本上也进行了重分配,使用o1-preview的API相比于GPT-4o输入tokens价格是GPT-4o的5倍 (每百万tokens$15.00:$3.00),输出tokens差距o1-preview的价格是GPT-4o的6倍(每百万tokens$60.00:$10.00)。 图表1:OpenAIo1模型测评分数对比 来源:OpenAI、国金证券研究所 图表2:阿里通义Macro-o1模型的原理 来源:Macro-o1论文、国金证券研究所 在OpenAI发布o1之后,其他大模型公司包括国内的Deepseek和阿里通义也发布了类似通过增强推理阶段的计算资源来提高能力的模型,并且开始有论文揭露底层技术。阿里发布的Marco-o1由思维链(CoT)微调、蒙特卡洛树搜索(MCTS)、自反机制和创新性推理策略驱动,专门针对复杂的现实世界问题解决任务进行了优化。同时,阿里在Open-o1数据集的基础上进行了筛选,并且使用合成数据方法合成了一个新的Macro-o1数据库,用来监督微调。最终,在应用了蒙特卡洛树微调后,模型在评测上实现了大幅超过了基底模型Qwen2-7B的成绩。 图表3:阿里通义Macro-o1模型测试成绩大幅领先基底模型 来源:Macro-o1论文、国金证券研究所 Deepseek也推出了一款名为DeepSeek-R1,对标OpenAI的o1模型,同样是采用"思维链"技术,可以将复杂任务分解为多个步骤逐一解决,在AIME和MATH两项基准测试中,R1的表现与o1相当或更优,但是仍未公布论文和技术详细信息。 图表4:DeepSeek-R1在复杂问题测试成绩与其他模型对比 来源:DeepSeek官网、国金证券研究所 1.3方向二:测试时训练 测试时训练(Test-TimeTraining)是24年11月份由MIT提出的另一条实现大模型ScalingLaw的路线,这是一种在推理过程中根据测试输入动态更新模型参数的技术。它不同于标准的微调,因为它在极低数据的情况下运行,通常对单个输入或一两个上下文中的标记示例使用无监督或监督目标。相当于对推理过程中的数据进行调整后合成测试时训练数据用来更新模型的参数,这种方法对抽象推理的问题效果较好,MIT团队在Llama38B模型上使用这种方法后,相比于1B的基础微调模型,准确率提高了6倍;在8B参数的语言模型上应用TTT,在ARC公共验证集上实现了45%的准确率,比8B基础模型提高了近157%。但是该方法仍在初期试验阶段,对计算资源要求也很高,所以论文的评估主要在ARC公共验证集的一个子集上进行,并没有提交到官方排行榜。 图表5:测试时训练(TTT)合成数据的原理 来源:Test-TimeTraining论文、国金证券研究所 1.4方向三:合成数据 合成数据在LLM开发中的应用正在迅速扩大,从预训练到微调阶段都发挥着重要作用。它不仅解决了数据获取和隐私问题,还能有针对性地增强模型在特定任务上的表现。OpenAI的模型训练和Alignment项目大量使用合成数据;Anthropic公司在Claude系列模型中采用了ConstitutionalAI(CAI)方法,通过合成数据显著提升了模型的稳健性,使得Claude模型能够更准确地识别和拒绝回答不确定的问题;阿里通义的Qwen系列则采取了一种独特的方法,利用早期版本的Qwen模型来生成合成数据,用于增强预训练数据集的质量,同时在训练过程中创新性地使用合成数据生成多个候选响应,再通过奖励模型筛选出最优答案;Apple的AFM模型也在这一领域做出了重要尝试,特别是在预训练阶段使用合成数据来延长上下文长度,并且特别关注数学和代码任务相关的高质量合成数据生成。 图表6:大模型训练中合成数据占比不断提升 来源:Gartner、国金证券研究所 据Gartner预测,到2030年,合成数据将在AI模型中完全超过真实数据的使用,而合成数据的生成过程需要消耗大量计算资源。以使用OpenAI的模型为例,使用GPT-4生成十万个JSON合成数据元素预计成本高达506美元,随着现实世界数据被逐渐发掘用尽,合成数据消耗的推理资源会快速上升。 1.5方向四:模型量化逐渐失效 量化是把模型里的数字用更少的位数表示,比如用整数代替小数,这样计算更快,占用的空间也更小。在模型推理时使用量化后的模型是主流的节约推理成本的方法,但是在24年11月,哈佛和斯坦福大学等顶尖学府学者发布的《ScalingLawsforPrecision》引起了大模型行业科学家的广泛讨论,研究发现在预训练阶段使用更低精度的参数会会降低模型的有效参数数量,而推理量化后的模型的性能下降会随着模型训练数据量的增加而增加,意味着数据太多反而对推理低精度模型有负面影响。论文还提出了感知量化训练技术,是一种有效的模型量化技术,模型仍然使用高精度(例如FP32或BF16)进行训练,但在每次前向和反向传播过程中,都会模拟低精度量化的操作,感知到降低哪些部分的参数精度对模型效果的影响较小,可以在保持较高推理性能的同时降低模型的计算和存储成本。 图表7:训练后量化和训练时量化效果对比 来源:ScalingLawsforPrecision、国金证券研究所 1.6方向五:多模态融合模型发展空间大 尽管各大厂商如Meta和阿里巴巴积极布局多模态大模型领域,分别推出了Llama3.2系列(包括其首个大型多模态模型)以及通义Qwen-VL升级版(Qwen-VL-Plus和Qwen-VL-Max),在图像推理等能力上取得了显著进展,但在整体架构设计、性能效果以及支持的模态数量等方面,相较于OpenAI推出的GPT-4o仍存在明显差距,比