投资评级:看好(维持) 核心观点 证券研究报告 最近12月市场表现 计算机 沪深300 上证指数 25% 13% 2% -10% -21% -32% 分析师杨烨 SAC证书编号:S0160522050001 yangye01@ctsec.com 相关报告 1.《OpenAI12天直播带来的几点产业思考》2024-12-23 2.《AI眼镜或将成为下一代终端》 2024-12-22 3.《智驾月报:车市延续景气,FSDv13开始测试》2024-12-20 DeepSeek-V3正式发布,性能对齐海外头部模型:12月26日,深度求索DeepSeek发布了其DeepSeek-V3模型。该模型是一款强大的混合专家 (MoE)语言模型,拥有671B参数,激活37B,在14.8Ttoken上进行了预训练。在多种任务中表现卓越,训练高效且成本效益显著。DeepSeek-V3在多项基准测试中表现优异,比肩世界顶级模型。 国内头部自研开源模型,创新引入训练新策略:DeepSeek-V3的基础架构仍在Transformer架构内,同时采用了多头潜在注意力(MLA)和DeepSeekMOE(DeepSeek混合专家)机制,以实现更高效推理和更具经济性价比的训练。DeepSeek-V3本次创新在于额外引入了无辅助损失的负载均衡策略(auxiliary-loss-freeloadbalancingstrategy)和多token预测策略(MTP),两者对模型训练过程进行了创新性的优化。在DeepSeek-V3后训练过程中,DeepSeek结合了监督微调(SFT)和强化学习(RL),使得模型可以更好的与人类偏好对齐,增强其泛化能力,并更好地处理未见过的数据和任务。 完整训练仅需278.8万H800GPU小时,高性价比追求普惠AGI:DeepSeek-V3的完整训练仅需278.8万H800GPU小时,包含预训练、上下文长度扩展和后训练。同时,DeepSeek-V3采用了FP8混合精度训练框架,这是首次在超大规模模型上验证FP8训练的可行性和有效性。综合评估表明,DeepSeek-V3是目前最强的开源模型,性能可与闭源模型如GPT-4o-0513和Claude-3.5-Sonnet-1022相媲美。另外,随着性能更强、速度更快的DeepSeek-V3更新上线,DeepSeek-V3模型API服务定价也将调整为每百万输入tokens0.5元(缓存命中)/2元(缓存未命中),每百万输出tokens8元,是当前模型性能/价格比最优的模型服务。 风险提示:技术迭代不及预期的风险;商业化落地不及预期的风险;政策支持不及预期风险;全球宏观经济风险。 DeepSeek-V3发布,技术创新和商业化落地的共 振 请阅读最后一页的重要声明! 内容目录 1DeepSeek-V3正式发布,性能对齐海外头部模型3 2国内头部自研开源模型,创新引入训练新策略4 2.1引入无辅助损失的负载均衡策略,提高模型性能4 2.2设立多token预测训练目标MTP,增加训练信号的密度5 2.3结合监督微调和强化学习后训练,性能比肩领先闭源模型6 2.3.1SFT和RL帮助模型调整生成策略,新任务适应能力提升6 2.3.2SFT和RL的结合,显著提升多个基准测试性能8 3完整训练仅需278.8万H800GPU小时,高性价比追求普惠AGI8 4风险提示9 图表目录 图1.DeepSeek发布DeepSeek-V3模型3 图2.DeepSeek-V3及其同类产品的基准性能比较3 图3.DeepSeek-V3的基本架构4 图4.无辅助损失的平衡策略的消融结果5 图5.多token预测(MTP)策略的消融结果6 图6.DeepSeek-V3展示解题时的CoT7 图7.DeepSeek-V3实际输出结果7 图8.DeepSeek-V3与其他代表性模型的对比8 图9.MMLUReduxZeraEval得分vs.输入API价格(¥/1MTokens)9 1DeepSeek-V3正式发布,性能对齐海外头部模型 DeepSeek-V3正式发布。12月26日,深度求索DeepSeek发布了其DeepSeek-V3模型。该模型是一款强大的混合专家(MoE)语言模型,拥有671B参数,激活37B,在14.8Ttoken上进行了预训练。在多种任务中表现卓越,训练高效且成本效益显著。 图1.DeepSeek发布DeepSeek-V3模型 数据来源:DeepSeek-V3模型官方,财通证券研究所 DeepSeek-V3在多项基准测试中表现优异,比肩世界顶级模型。根据DeepSeek发布的最新论文,DeepSeek-V3多项评测成绩超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型,并在性能上和世界顶尖的闭源模型GPT-4o(0513版本)以及Claude-3.5-Sonnet不分伯仲。如下图2所示,在MATH500(EM)测试中,DeepSeek-V3的准确率最高,为90.2%;在Codeforces(Percentile)测试中,DeepSeek-V3的准确率为51.6%,是可比模型中最高。 图2.DeepSeek-V3及其同类产品的基准性能比较 数据来源:DeepSeek官网,财通证券研究所 2国内头部自研开源模型,创新引入训练新策略 基于多头潜在注意力,实现高效推理。DeepSeek-V3的基础架构仍在Transformer架构内,同时采用了多头潜在注意力(Multi-HeadLatentAttention,简称MLA)和DeepSeekMOE(DeepSeek混合专家)机制,以实现更高效推理和更具经济性价比的训练。多头潜在注意力机制(MLA)在DeepSeek-V2模型中就被提出和使用,核心思想是通过压缩键值(Key-Value,简称KV)缓存到一个潜在向量中,以减少推理过程中所需的内存和计算资源,提高模型推理效率。简而言之,MLA是将大模型中的单词信息压缩成更小的信息单元,以帮助模型以更有效和节省的方式处理大量数据。 图3.DeepSeek-V3的基本架构 数据来源:DeepSeek官网,财通证券研究所 2.1引入无辅助损失的负载均衡策略,提高模型性能 引入无辅助损失的负载均衡策略。DeepSeek-V3的基本架构与DeepSeek-V2类似,但在DeepSeek-V3中额外引入了无辅助损失的负载均衡策略(auxiliary-loss-freeloadbalancingstrategy),以在减轻因努力确保负载平衡(efforttoensureloadbalance)而导致的性能下降。 具体而言,负载平衡(loadbalancing)对模型的高效训练和运行至关重要,目的是在多个计算资源之间优化资源使用、最大化吞吐量、最小化响应时间,并避免任何单一点过载。如果专家(expert)之间的负载不均衡,可能会导致计算资源的浪费和性能下降。传统的方法会引入辅助损失(auxiliaryloss)来促使负载平衡,虽然在一定程度上可以促使负载平衡,但太大的辅助损失会对模型的整体性能产生负面影响。此次DeepSeek-V3引入的无辅助损失的负载均衡策略是试图在不依赖辅助损失(或减少其负面影响)的情况下,动态调整偏差项来实现负载平衡,从而使模型更好的学习关键信息,并在推理阶段更准确的生成结果。 图4.无辅助损失的平衡策略的消融结果 数据来源:DeepSeek官方,财通证券研究所 注:从表格来看,在大部分的基准测试和任务中,使用无辅助损失的策略(Aux-Loss-Free)的模型在不同规模的混合专家模型上都表现出更好的性能。表格中“shot”表示提供给模型学习的示例数量。 2.2设立多token预测训练目标MTP,增加训练信号的密度 DeepSeek-V3模型的另一项创新为引入多token预测策略(multi-tokenpredictionstrategy,简称MTP)。在传统的语言模型训练中,通常是逐个预测下一个单词 (next-tokenprediction)。而MTP可以尝试扩展预测范围,一次性预测多个未来token。这样做的一个主要目的是增加训练信号的密度,使模型在每次预测时能够从更多的未来信息中学习,从而提高数据效率。 具体而言,MTP可以同时考虑接下来的几个单词,让模型更全面地理解上下文关系,更好地捕捉文本中的语义和语法信息,进而更高效地利用训练数据进行学习。 生成的文本更加流畅、合理,而不是仅仅局限于逐个单词的生成,缺乏对整体的规划。 图5.多token预测(MTP)策略的消融结果 数据来源:DeepSeek官方,财通证券研究所 注:从表格来看,使用MTP策略的基准模型在性能上有所提升,不同任务和不同规模的模型提升幅度有所不同。 2.3结合监督微调和强化学习后训练,性能比肩领先闭源模型 在DeepSeek-V3后训练过程中,DeepSeek结合了监督微调(SupervisedFine–Tuning,简称SFT)和强化学习(ReinforcementLearning,简称RL),使得模型可以更好的与人类偏好对齐,增强其泛化能力,并更好地处理未见过的数据和任务。 2.3.1SFT和RL帮助模型调整生成策略,新任务适应能力提升 DeepSeek-v3在SFT和RL环节分别进行了优化,模型适应能力提升明显。 在SFT训练中,DeepSeek针对推理相关数据集(如数学、代码竞赛、逻辑谜题等),利用内部的DeepSeek-R1模型生成数据;针对非推理数据(如创意写作、角色扮演、简单问答等),使用DeepSeek-V2.5生成响应,并由人类注释者验证数据的准确性和正确性。 在RL训练中,DeepSeek采用了基于规则和基于模型的奖励模型(rewardmodel)。对于可以使用特定规则验证的问题(如某些数学问题、编程题等),使用基于规则的奖励系统。对于自由形式的真实答案问题或无明确真实答案 的问题(如创意写作等),使用基于模型的奖励模型。该模型从DeepSeek-V3的SFT检查点进行训练,并通过构建偏好数据来增强其可靠性,偏好数据不仅提供最终奖励,还包括导致奖励的思维链(ChainofThought,简称CoT),以减少奖励黑客(rewardhacking)风险。 图6.DeepSeek-V3展示解题时的CoT 数据来源:DeepSeek-V3模型官方,财通证券研究所 最终,在SFT阶段学习到的通用知识和模式,结合RL阶段对不同任务和场景下奖励信号的适应,帮助模型在面对新的任务和数据时能够更快地调整策略,生成合理的输出。 图7.DeepSeek-V3实际输出结果 数据来源:DeepSeek-V3模型官方,财通证券研究所 2.3.2SFT和RL的结合,显著提升多个基准测试性能 SFT和RL的结合使得模型在多个基准测试中的性能得到显著提升。在标准基准测试中,如MMLU、DROP、GPQA等,DeepSeek-V3在经过SFT和RL后表现出色,超过了其他开源模型,甚至在一些任务上接近或达到领先闭源模型的水平。在实际应用场景中,如在处理复杂的编程任务、知识问答、文本创作等任务时,模型能够更好地理解任务要求,生成更合理、更准确的输出。 图8.DeepSeek-V3与其他代表性模型的对比 数据来源:DeepSeek官方,财通证券研究所 注:所有模型均在将输出长度限制为8K的配置下进行评估。对于包含少于1000个样本的基准测试,会使用不同的温度设置多次测试,以便得出可靠的最终结果。结果显示,DeepSeek-V3是性能最佳的开源模型,与前沿的闭源模型相比,也展现出了颇具竞争力的性能。 3完整训练仅需278.8万H800GPU小时,高性价比追求普惠AGI DeepSeek-V3的完整训练仅需278.8万H800GPU小时,包含预训练、上下文长度扩展和后训练。根据官方论文,其训练过程非常稳定,没