但本周最值得关注的事件,应该是幻方量化发布了DeepSeek-V3模型。该模型一经发布就在国内外迅速出圈,并引发了资本市场的热烈讨论。在本周的AI行业动态跟踪中,我将分享一些对DeepSeek模型的见解,供各位领导参考# DeepSeek-V3厉害在哪里? 1)性能极强 领导周末好,本周市场热点继续聚焦在字节、小米等国内玩家的边际进展。 但本周最值得关注的事件,应该是幻方量化发布了DeepSeek-V3模型。 该模型一经发布就在国内外迅速出圈,并引发了资本市场的热烈讨论。 在本周的AI行业动态跟踪中,我将分享一些对DeepSeek模型的见解,供各位领导参考 # DeepSeek-V3厉害在哪里? 1)性能极强:作为一个总参数量671B但激活参数仅37B的MoE模型,DeeSeek-V3在主流基准分数全面超越Llama3.1 405B,与Claude-Sonnet-3.5-1022近乎打平,实测在Sonnet-3.5和GPT-4o之间,是当之无愧的国产最强开源模型;2)成本极低:训练DeeSeek-V3仅需2048张H800训练56天(2.788M GPU hours),算力成本仅4000万人民币,是Llama 3.1训练成本的1/11。 DeeSeek-V3的推理成本也持续超预期,输入/输出每百万Tokens仅2元/8元,仅为Sonnet-3.5的1/10,这里甚至还没有考虑开启Context Caching这个外挂;3)引领创新:DeepSeek打破了对国产模型团队的刻板印象,他们在V2提出的多头隐式注意力(MLA )就已得到了业内的高度赞许,还包括今年初提出的DeepSeekMoE架构,再到本次V3首次验证了大规模FP8混合精度训练的可行性,并创新性地应用了无辅助损失的负载均衡策略、多令牌预测(MTP)的训练目标等等。 我们应该很自豪国内有这么一个有技术理想有人才实力有算力储备的大模型团队(感兴趣的领导可以回看今年5月写的DeepSeek-V2解析: #为什么训练/推理成本这么低? 1)V3主要涉及的降本技术方案有①MLA机制(降低KV Cache大小)、②DeepSeekMoE架构(降低Flops/参数开销)、③FP8混合精度训练(降低Flops和显存占用)、④蒸馏DeepSeek-R1推理能力(降低后训练RL成本)、⑤MTP模块(提升解码速度)、⑥P/D分离推理(最大化系统计算效率);2)相较5月发布的V2,MoE的细粒度进一步提升,得益于负载均衡策略和系统层面的大量计算&通信优化;FP8 精度的使用是本次V3的重大创新,在此之前FP8数值溢出风险大,叠加MoE训练本身又很不稳定,业内一直没有大规模训练的成功实践;类o1的CoT推理能力直接通过11月发布的R1模型进行蒸馏而得,这解释了为什么后训练只有5k GPU hours算力消耗,不幸的是DeepSeek至今还未公布R1的训练细节;MTP不仅可以在训练时提供更多监督信息,还可以在推理时结合投机采样加速模型解码;推理部署V3在Prefill和Decode阶段采用了完全不同的并行策略,特别是在Decode阶段使用了320张GPU做了专家并行,有效降低解码时延,并缓解负载不均衡的问题 #对算力是利空吗? 1)无论是DeepSeek-V3还是上周发布的OpenAI o3,它们都指向了同一个发展趋势:尽管预训练的“大力出奇迹”现阶段有些撞墙,但模型能力的提升依然在其他维度发生,无论是继续去挖掘Transformer架构的潜力,还是去卷后训练的强化学习,亦或是怼推理时计算。 算力的投入依然会继续增加,只不过阶段性投入的重心从一年前的预训练,转移到了目前的后训练和推理;2)对预训练的算力需求个人认为也无需过度悲观。 并且,任何技术的演进也都是周期交替的,假如明年初x.AI用10万卡集群训练出的Grok 3表现惊艳,届时业内又可能重拾对超大规模预训练的热情 #对应用的意义有多大? 1)事实上今年5月DeepSeek-V2的发布就是国产大模型格局剧变的导火索。 当时在V2发布几天后,火山引擎则宣布大幅降价,也正是那次价格战奠定了豆包在目前国内市场的格局。 同理,我相信本次V3发布后,依然会在行业内形成类似的鲶鱼效应。 我个人最看好的依然是端侧的各式智能硬件(AIoT),这是符合国内市场消费习惯、中国供应链能充分受益、且更加从零到一的方向。 从事件催化的角度,我们有望看到OpenAI的GUI Agent “Operator”在25年1月发布。 同时在1月7日开幕的CES消费电子展上,我们也可能看到一些意想不到的端侧智能硬件。