行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

领导周末好本周市场热点继续聚焦在字节小米等国内玩家的边际进展

2024-12-29 未知机构张兵

DeepSeek-V3模型核心洞察

核心事件与性能表现

幻方量化发布的DeepSeek-V3模型成为本周AI行业焦点，该模型总参数量671B但激活参数仅37B，在主流基准测试中全面超越Llama3.1 405B，与Claude-Sonnet-3.5-1022性能接近，实测表现介于Sonnet-3.5和GPT-4o之间，被定位为国产最强开源模型。

成本优势分析

训练成本：仅需2048张H800训练56天（2.788M GPU hours），算力成本约4000万人民币，仅为Llama 3.1训练成本的1/11。
推理成本：输入/输出每百万Tokens仅2元/8元，仅为Sonnet-3.5的1/10（未考虑Context Caching优化）。

技术创新亮点

架构突破：V2提出的多头隐式注意力（MLA）获高度认可，V3首次验证大规模FP8混合精度训练可行性。
创新策略：应用无辅助损失的负载均衡策略、多令牌预测（MTP）训练目标等。
技术演进：MoE细粒度提升得益于负载均衡策略和系统级优化，FP8精度使用解决数值溢出风险。

算力市场影响

投入趋势：预训练算力需求阶段性降温，重心转向后训练和推理优化，但整体算力投入仍将持续增长。
周期性预期：若x.AI明年Grok 3表现惊艳，可能重燃超大规模预训练热情。

应用市场意义

行业鲶鱼效应：类似V2发布后火山引擎降价奠定豆包市场格局，V3将引发类似效应。
端侧AIoT前景：符合国内消费习惯，中国供应链优势明显，有望催生OpenAI GUI Agent "Operator"（2025年1月发布）及CES展端侧智能硬件创新。

但本周最值得关注的事件，应该是幻方量化发布了DeepSeek-V3模型。该模型一经发布就在国内外迅速出圈，并引发了资本市场的热烈讨论。在本周的AI行业动态跟踪中，我将分享一些对DeepSeek模型的见解，供各位领导参考# DeepSeek-V3厉害在哪里？ 1）性能极强领导周末好，本周市场热点继续聚焦在字节、小米等国内玩家的边际进展。但本周最值得关注的事件，应该是幻方量化发布了DeepSeek-V3模型。该模型一经发布就在国内外迅速出圈，并引发了资本市场的热烈讨论。在本周的AI行业动态跟踪中，我将分享一些对DeepSeek模型的见解，供各位领导参考 # DeepSeek-V3厉害在哪里？ 1）性能极强：作为一个总参数量671B但激活参数仅37B的MoE模型，DeeSeek-V3在主流基准分数全面超越Llama3.1 405B，与Claude-Sonnet-3.5-1022近乎打平，实测在Sonnet-3.5和GPT-4o之间，是当之无愧的国产最强开源模型；2）成本极低：训练DeeSeek-V3仅需2048张H800训练56天（2.788M GPU hours），算力成本仅4000万人民币，是Llama 3.1训练成本的1/11。 DeeSeek-V3的推理成本也持续超预期，输入/输出每百万Tokens仅2元/8元，仅为Sonnet-3.5的1/10，这里甚至还没有考虑开启Context Caching这个外挂；3）引领创新：DeepSeek打破了对国产模型团队的刻板印象，他们在V2提出的多头隐式注意力（MLA ）就已得到了业内的高度赞许，还包括今年初提出的DeepSeekMoE架构，再到本次V3首次验证了大规模FP8混合精度训练的可行性，并创新性地应用了无辅助损失的负载均衡策略、多令牌预测（MTP）的训练目标等等。我们应该很自豪国内有这么一个有技术理想有人才实力有算力储备的大模型团队（感兴趣的领导可以回看今年5月写的DeepSeek-V2解析： #为什么训练/推理成本这么低？ 1）V3主要涉及的降本技术方案有①MLA机制（降低KV Cache大小）、②DeepSeekMoE架构（降低Flops/参数开销）、③FP8混合精度训练（降低Flops和显存占用）、④蒸馏DeepSeek-R1推理能力（降低后训练RL成本）、⑤MTP模块（提升解码速度）、⑥P/D分离推理（最大化系统计算效率）；2）相较5月发布的V2，MoE的细粒度进一步提升，得益于负载均衡策略和系统层面的大量计算&通信优化；FP8 精度的使用是本次V3的重大创新，在此之前FP8数值溢出风险大，叠加MoE训练本身又很不稳定，业内一直没有大规模训练的成功实践；类o1的CoT推理能力直接通过11月发布的R1模型进行蒸馏而得，这解释了为什么后训练只有5k GPU hours算力消耗，不幸的是DeepSeek至今还未公布R1的训练细节；MTP不仅可以在训练时提供更多监督信息，还可以在推理时结合投机采样加速模型解码；推理部署V3在Prefill和Decode阶段采用了完全不同的并行策略，特别是在Decode阶段使用了320张GPU做了专家并行，有效降低解码时延，并缓解负载不均衡的问题 #对算力是利空吗？ 1）无论是DeepSeek-V3还是上周发布的OpenAI o3，它们都指向了同一个发展趋势：尽管预训练的“大力出奇迹”现阶段有些撞墙，但模型能力的提升依然在其他维度发生，无论是继续去挖掘Transformer架构的潜力，还是去卷后训练的强化学习，亦或是怼推理时计算。算力的投入依然会继续增加，只不过阶段性投入的重心从一年前的预训练，转移到了目前的后训练和推理；2）对预训练的算力需求个人认为也无需过度悲观。并且，任何技术的演进也都是周期交替的，假如明年初x.AI用10万卡集群训练出的Grok 3表现惊艳，届时业内又可能重拾对超大规模预训练的热情 #对应用的意义有多大？ 1）事实上今年5月DeepSeek-V2的发布就是国产大模型格局剧变的导火索。当时在V2发布几天后，火山引擎则宣布大幅降价，也正是那次价格战奠定了豆包在目前国内市场的格局。同理，我相信本次V3发布后，依然会在行业内形成类似的鲶鱼效应。我个人最看好的依然是端侧的各式智能硬件（AIoT），这是符合国内市场消费习惯、中国供应链能充分受益、且更加从零到一的方向。从事件催化的角度，我们有望看到OpenAI的GUI Agent “Operator”在25年1月发布。同时在1月7日开幕的CES消费电子展上，我们也可能看到一些意想不到的端侧智能硬件。

点击免费查看完整报告

领导周末好本周市场热点继续聚焦在字节小米等国内玩家的边际进展

DeepSeek-V3模型核心洞察

核心事件与性能表现

成本优势分析

技术创新亮点

算力市场影响

应用市场意义

你可能感兴趣

转请各位领导重视中兴通讯的产业趋势字节手机asic的事我们在最开始就提示过

本周市场关注的热点仍然集中在“市场整体风险”、“风格切换”和“中报超预期结构”上

领导好最近寒武纪在特斯拉和苹果的进展信息开始流传给您汇报一下大概的情况

本周继续关注经济数据和市场风险化解的改善进展

领导晚上好！本周市场关注的热点问题较多，主要是几个关键词——“小

Q2业绩落地，关注后续新产品线进展等带来的边际向好

公用事业行业-售电市场将在三地放开等电力行业热点点评：冰山在逐步融化

通信行业跟踪周报：本周专题，运营商中报业绩向好、车联网积极进展不断，持续关注新基建、物联网、云计算等景气提升的板块

在中国疫苗市场供需动态变化中的战略领导

随着GP领导的二级市场增长，与之相关的代表和保证保险的使用也在增加。