您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国信证券]:电子AI+系列专题报告(六):DeepSeek重塑开源大模型生态,AI应用爆发持续推升算力需求 - 发现报告

电子AI+系列专题报告(六):DeepSeek重塑开源大模型生态,AI应用爆发持续推升算力需求

电子设备2025-02-04国信证券杨***
AI智能总结
查看更多
电子AI+系列专题报告(六):DeepSeek重塑开源大模型生态,AI应用爆发持续推升算力需求

证券研究报告2025年02月05日 电子AI系列专题报告(六) DeepSeek重塑开源大模型生态,AI应用爆发持续推升算力需求 行业研究行业专题电子 投资评级:优于大市(维持) 证券分析师:胡剑 证券分析师:胡慧 证券分析师:叶子 证券分析师:张大为 证券分析师:詹浏洋 02160893306 02160871321 075581982153 02161761072 01088005307 hujian1guosencomcn huhui2guosencomcn yezi3guosencomcn zhangdawei1guosencomcn zhanliuyangguosencomcn S0980521080001 S0980521080002 S0980522100003 S0980524100002 S0980524060001 DeepSeek发展突飞猛进,领跑开源大模型技术与生态,DeepSeek模型已成为全球现象级模型。DeepSeek深度求索公司成立于2023年7月,是一家致力于实现通用人工智能AGI的创新型科技公司。2024年12月,DeepSeekV3发布,性能对齐海外领军闭源模型。据官方技术论文披露,V3模型的总训练成本为5576万美元,对比GPT4o等模型的训练成本约为1亿美元。2025年1月,DeepSeekR1发布,性能对标OpenAIo1正式版。在数学、代码、自然语言推理等任务上,性能比肩OpenAIo1正式版。2月1日消息,据彭博社报道,DeepSeek的人工智能助手在140个市场下载次数最多的移动应用程序排行榜上名列前茅。国外大型科技公司如微软、英伟达、亚马逊等已先后上线部署支持用户访问DeepSeekR1模型。2月1日,华为云官方发布消息,硅基流动和华为云团队联合首发并上线基于华为云昇腾云服务的DeepSeekR1V3推理服务。 DeepSeek通过MLA和DeepSeekMoE实现高效的推理和低成本训练,构建DualPipe算法和混合精度训练优化计算与通信负载;通过分阶段强化学习实现性能突破。多头潜在注意力MLA通过低秩联合压缩技术,大幅削减了注意力键keys和值values的存储空间,显著降低了内存需求。DeepSeekMoE架构采用了更为精细粒度的专家设置,能够更加灵活且高效地调配资源,进一步提升了整体的运行效率和表现。DeepSeek模型对跨节点的全对全通信机制进行优化,充分利用InfiniBand和NVLink提供的高带宽。创新性提出了DualPipe算法,通过优化计算与通信的重叠,有效减少了流水线中的空闲时间。采用FP8混合精度训练技术,不仅极大地加快了训练速度,还大幅降低了GPU内存的消耗。DeepSeekR1Zero通过强化学习架构创新实现突破性性能,核心技术创新体现在训练效能优化策略、双维度评价体系、结构化训练范式三个维度。DeepSeekR1采用分阶段强化学习架构演进,包括冷启动阶段、面向推理的强化学习、拒绝采样与监督式微调、全场景强化学习等。 AI应用爆发在即,算力需求持续攀升,关注ASIC及服务器产业链。ScalingLaw与“涌现”能力是大模型训练遵循的重要法则,随着ChatGPT引领全球AI浪潮,国内外科技公司纷纷发布AI大模型,截至24年7月,全球AI大模型数量约1328个其中美国位居第一位,占比44;中国位居第二位,占比36,模型的迭代加速、竞争加剧。同时,AI模型向多模态全方位转变,AI应用百花齐放,企业主动拥抱AI应用市场。因此,模型数量、模型参数、数据总量的持续增长及AI应用需求推动全球算力爆发式增长。在英伟达GPU随着架构的不断演进及算力的成倍增长,于AI大模型训练中得到广泛运用的同时,为了满足CSP客户更高性能和更好功能的需求,定制化芯片ASIC的需求持续提升,牧本钟摆从标准化逐渐摆向定制化。与之相应的算力基础设施持续建设和升级,促使国内外云服务商资本开支持续高速增长,带来AI服务器市场规模大幅提升,预计到26年全球AI服务器出货量将达到237万台,对应20232026年CAGR为26。 重点推荐组合:中芯国际、翱捷科技、德明利、工业富联、沪电股份、联想集团、国芯科技、澜起科技、芯原股份、龙芯中科、东山精密、景旺电子。 风险提示:宏观AI应用推广不及预期、AI投资规模低于预期、AI服务器渗透率提升低于预期、AI监管政策收紧。 02 01 DeepSeek发展突飞猛进,领跑开源大模型技术与生态 03 AI应用爆发在即,算力需求持续攀升,关注ASIC及服务器产业链风险提示 DeepSeek发展突飞猛进,领跑开源大模型技术与生态 DeepSeek深度求索公司成立于2023年5月,是一家致力于实现AGIArtificialGeneralIntelligence,通用人工智能的创新型科技公司,专注于开发先进的大语言模型和相关技术。DeepSeek由知名量化资管巨头幻方量化创立,幻方量化创始人梁文峰在量化投资和高性能计算领域具有深厚的背景和丰富的经验。 2024年5月,DeepSeekV2发布,成为全球最强开源通用MoE模型。DeepSeek独创Attention结构MLA一种新的多头潜在注意力机制、稀疏结构DeepSeekMoE在大模型竞技场LMSYS位列全球开源模型第一名,依靠创新结构,将推理成本降低近百倍。 2024年12月,DeepSeekV3发布,性能对齐海外领军闭源模型。该模型在多项评测集上超越了阿里Qwen2572B、Meta的Llama31405B等其他开源模型,并逼近GPT4o、Claude35Sonnet等顶尖闭源模型。据官方技术论文披露,V3模型的总训练成本为5576万美元,对比GPT4o等模型的训练成本约为1亿美元。 2025年1月,DeepSeekR1发布,性能对标OpenAIo1正式版。DeepSeekR1在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩OpenAIo1正式版。同时DeepSeek开源R1推理模型,允许所有人在遵循MITLicense的情况下,蒸馏R1训练其他模型。 图:DeepSeek模型迭代与发展历史沿革 DeepSeek深度求索成立。DeepSeekMath发布,7B模 型逼近GPT4的数学能力。 DeepSeekV2发布,成为全球最强开源通用MoE模型。 DeepSeekV25发布,融合通用与代码能力的全新开源模型。 DeepSeekV251210发布,V2系列收官;联网搜索上线官网。 DeepSeekR1发布,性能对标OpenAIo1正式版。 202305202311202402202403202405202406202409202411202412102024122620250120 DeepSeekCoder发布,目前仍是开源代码模型标杆。 资料来源:DeepSeek官网,国信证券经济研究所整理 DeepSeekVL发布,作为自然语言到多模态初探。 DeepSeekCoderV2发布,成为全球最强代码开源模型。 DeepSeekR1Lite预览版正式上线,展现了o1没有公开的完整思考过程。 DeepSeekV3发布,性能对齐海外领军闭源模型。 图:微软宣布支持访问DeepSeekR1模型 图:英伟达宣布支持访问DeepSeekR1模型 DeepSeek下载量占据140多个国家榜首。2月1日消息,据彭博社报道,DeepSeek的人工智能助手在140个市场下载次数最多的移动应用程序排行榜上名列前茅,其中印度占据了新用户的最大比例。据Appfigures数据(不包括中国的第三方应用商店),这款推理人工智能聊天机器人于1月26日升至苹果公司应用商店的榜首,此后一直占据全球第一的位置。 国外大型科技公司已上线部署支持用户访问DeepSeekR1模型。1月30日,微软宣布DeepSeekR1模型已在AzureAIFoundry和GitHub上提供。1月31日,英伟达宣布DeepSeekR1模型已作为NVIDIANIM微服务预览版在英伟达面向开发者的网站上发布;同日亚马逊宣布,客户现已可以在AmazonBedrock和AmazonSageMakerAI中部署DeepSeekR1模型。 图:亚马逊宣布支持访问DeepSeekR1模型 硅基流动和华为云宣布上线DeepSeekR1V3推理服务。2月1日,华为云官方发布消息,硅基流动和华为云团队联合首发并上线基于华为云昇腾云服务的DeepSeekR1V3推理服务。该服务具备以下特点:1)得益于自研推理加速引擎加持,硅基流动和华为云昇腾云服务支持部署的DeepSeek模型可获得持平全球高端GPU部署模型的效果。2)提供稳定的、生产级服务能力,让模型能够在规模生产环境中稳定运行,并满足业务商部署需求。华为云昇腾云服务可以提供澎湃、弹性、充足的算力。 资料来源:各公司官网,国信证券经济研究所整理 2024年12月26日,全新系列模型DeepSeekV3首个版本上线并同步开源。DeepSeekV3为自研MoE模型,共有671B参数,每个token激活37B,在148Ttoken上进行预训练。DeepSeekV3多项评测成绩超越了Qwen2572B和Llama31405B等其他开源模型,并在性能上和世界顶尖的闭源模型GPT4o及Claude35Sonnet不分伯仲。 DeepSeekV3模型生成速度提升至3倍。通过算法和工程上的创新,DeepSeekV3的生成吐字速度从20TPS大幅提高至60TPS,相比V25模型实现了3倍的提升,能够为用户带来更加迅速流畅的使用体验。 DeepSeekV3模型具有更优的模型性能价格比例。随着性能更强、速度更快的DeepSeekV3更新上线,模型API服务定价调整为每百万输入tokens05元缓存命中2元缓存未命中,每百万输出tokens8元。相比于其他模型性能和定价,该模型具有更优的模型性能价格比例。 图:DeepSeekV3等模型执行不同推理任务性能对比 图:DeepSeekV3等模型多项评测成绩对比 图:DeepSeekV3具有更优的模型性能价格比例 资料来源:DeepSeek官网,国信证券经济研究所整理资料来源:DeepSeek官网,国信证券经济研究所整理资料来源:DeepSeek官网,国信证券经济研究所整理 图:DeepSeek蒸馏小模型等执行不同推理任务性能对比 2025年1月20日,DeepSeekR1正式发布,并同步开源模型权重,性能对齐OpenAIo1正式版。DeepSeekR1在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩OpenAIo1正式版。 DeepSeekR1遵循MITLicense,允许用户通过蒸馏技术借助R1训练其他模型;同时上线API,对用户开放思维链输出;DeepSeek官网与App同步更新上线,用户打开“深度思考”模式,即可调用最新版DeepSeekR1完成各类推理任务。 DeepSeek蒸馏小模型超越OpenAIo1mini。在开源DeepSeekR1Zero和DeepSeekR1两个660B模型的同时,通过DeepSeekR1的输出,蒸馏了6个小模型开源给社区,其中32B和70B模型在多项能力上实现了对标OpenAIo1mini的效果。 图:DeepSeekR1等模型执行不同推理任务性能对比 资料来源:DeepSeek官网,国信证券经济研究所整理资料来源:DeepSeek官网,国信证券经济研究所整理 图:DeepSeekV3模型技术架构 DeepSeekV3以Transformer框架为基石,创新性地融入多头潜在注意力MultiheadLatentAttention,MLA和DeepSeekMoE