您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:MOE架构性价比凸显维持看好国产模型及应用突破东吴传媒张良卫团队20240510 - 发现报告
当前位置:首页/会议纪要/报告详情/

MOE架构性价比凸显维持看好国产模型及应用突破东吴传媒张良卫团队20240510

2024-05-10未知机构哪***
MOE架构性价比凸显维持看好国产模型及应用突破东吴传媒张良卫团队20240510

深度求索(DeepSeek)发布最新国产大模型DeepSeek-V2,DeepSeek-V2基于2千亿MoE模型底座。DeepSeek-V2模型采用了8.1trilliontokens高质量的语料库进行了预训练,在进行全面的预训练之后进行了监督微调(SFT)和强化学习(RL)过程。在目前大模型主流榜单中,DeepSeek-V2均表现出色: -中文综合能力开源模型中最强,与GPT-4-Turbo,文心4.0等闭源模型在评测中处于同一梯队; -英文综合能力与最强的开源模型LLaMA3-70B处于同一梯队,超过最强MoE开源模型Mixtral8x22B; -知识、数学、推理、编程等榜单结果位居前列; -开源模型支持128K上下文,对话官网/API支持32K上下文。2)由于采用了创新性的模型架构,推理成本在所有主流大模型中具有明显竞争力。根据DeepSeek官网,V2版本提供了极具竞争力的API价格,分别位1元/百万输入Tokens及2元/百万输出Tokens。 之所以成本更低,在于DeepSeek-V2采用了创新架构,保证经济训练和高效推理,分别采用了MLA(多头潜在注意力)和DeepSeekMoE架构(一种高性能的MoE架构)。3)观点重申:DeepSeek模型的高效及高性价比,体现了MOE架构的优势,国产模型在能力上保持对于海外头部大模型的快速追赶,坚定看好国产模型及应用的发展前景。 此前4月17日,昆仑万维率先推出了4000亿级参数的MoE混合专家模型架构天工3.0,超越了3140亿参数的Grok-1。我们判断,Moe架构将成为越来越多底座大模型的首选架构,由 于其能阶段性的显著降低推理成本,也是推动大模型应用普及的关键变量。坚定看好国产模型及应用的长期价值,昆仑万维在国产模型中领先身位逐渐凸显,维持公司“买入”评级。 风险提示:产业进展不及预期联系人:张良卫/周良玖 以上资料来自deepseek官网及论文