热门搜索：

MOE架构性价比凸显维持看好国产模型及应用突破东吴传媒张良卫团队20240510

2024-05-10未知机构哪***

深度求索(DeepSeek)发布最新国产大模型DeepSeek-V2，DeepSeek-V2基于2千亿MoE模型底座。DeepSeek-V2模型采用了8.1trilliontokens高质量的语料库进行了预训练，在进行全面的预训练之后进行了监督微调(SFT)和强化学习(RL)过程。在目前大模型主流榜单中，DeepSeek-V2均表现出色： -中文综合能力开源模型中最强，与GPT-4-Turbo，文心4.0等闭源模型在评测中处于同一梯队； -英文综合能力与最强的开源模型LLaMA3-70B处于同一梯队，超过最强MoE开源模型Mixtral8x22B； -知识、数学、推理、编程等榜单结果位居前列； -开源模型支持128K上下文，对话官网/API支持32K上下文。2）由于采用了创新性的模型架构，推理成本在所有主流大模型中具有明显竞争力。根据DeepSeek官网，V2版本提供了极具竞争力的API价格，分别位1元/百万输入Tokens及2元/百万输出Tokens。之所以成本更低，在于DeepSeek-V2采用了创新架构，保证经济训练和高效推理，分别采用了MLA（多头潜在注意力）和DeepSeekMoE架构（一种高性能的MoE架构）。3）观点重申：DeepSeek模型的高效及高性价比，体现了MOE架构的优势，国产模型在能力上保持对于海外头部大模型的快速追赶，坚定看好国产模型及应用的发展前景。此前4月17日，昆仑万维率先推出了4000亿级参数的MoE混合专家模型架构天工3.0，超越了3140亿参数的Grok-1。我们判断，Moe架构将成为越来越多底座大模型的首选架构，由于其能阶段性的显著降低推理成本，也是推动大模型应用普及的关键变量。坚定看好国产模型及应用的长期价值，昆仑万维在国产模型中领先身位逐渐凸显，维持公司“买入”评级。风险提示：产业进展不及预期联系人：张良卫/周良玖以上资料来自deepseek官网及论文

点击免费查看完整报告

你可能感兴趣

MOE架构性价比凸显维持看好国产模型及应用突破东吴传媒张良卫团队20240510

你可能感兴趣

【东吴传媒互联网张良卫团队】国产模型及应用正处于爆发的起点位置，AI主线依然清晰，同时演绎具有持续性

【东吴传媒互联网张良卫团队】新东方在线：1QFY23强盈利能力凸显，维持看好长期

继续看好昆仑万维AI应用进展东吴传媒互联网张良卫团队事件5月27日

纪要OpenAI新模型技术猜想及投资启示东吴传媒互联网张良卫团队20240917

【东吴传媒互联网张良卫团队】再次强Call AI应用投资机会，把握回调后的投资机