DeepSeek发布最新模型 ,DeepSeek-V3性能对齐海外领军闭源模型。 DeepSeek发布最新模型R1,并同步开源模型权重。DeepSeek-R1在后训练阶段大规模使用了强化学习技术。在数学、代码、自然语言推理等任务上,性能比肩OpenAI o1正式版。DeepSeek-R1 API服务定价为每百万输入tokens 1元(缓存命中)/ 4元(缓存未命中),每百万输出tokens 16元。DeepSeek-V3多项评测成绩超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型,并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。 DeepSeek V3和R1模型完成海光DCU适配并正式上线,DeepSeek获四大国产GPU支持。海光信息技术团队成功完成DeepSeek V3和R1模型与海光DCU(深度计算单元)的适配,并正式上线。华为云、腾讯云、阿里云和百度智能云先后官宣了对DeepSeek-V3、DeepSeek-R1模型的支持,目前国内四大云巨头都已正式支持DeepSeek。此前海外的AWS、微软智能云等云巨头已官宣支持。 DeepSeek日活用户突破2000万。DeepSeek应用(APP)2025/01/11日发布,截止1/31日上线仅21天,日活跃用户DAU 2215万,达ChatGPT日活用户的41.6%,超过豆包的日活用户1695万。 OpenAI发布o3-mini。o3-mini在Chat Completions API、Assistants API、Batch API中推出。OpenAI称相较推出GPT-4时,每个token的价格已经降低了95%,同时保持了顶级推理能力。o3-mini的API定价高于DeepSeek模型。 通义两大模型Qwen2.5-VL和Qwen2.5- 1M 均已上线并开源。Qwen2.5-VL模型推出3B、7B和72B三个尺寸版本。其中,旗舰版Qwen2.5-VL-72B在13项权威评测中夺得视觉理解冠军,全面超越GPT-4o与Claude3.5。 SemiAnalysis认为DeepSeek是目前最好的“开源权重”实验室。 SemiAnalysis认为DeepSeek拥有大约50,000个Hopper GPU,拥有大约10,000台H800和大约10,000台H100。Nvidia在过去9个月内生产了超过100万台中国专用GPU。SemiAnalysis认为DeepSeek的总服务器资本支出接近13亿美元,其中运营此类集群的成本高达7.15亿美元。 外部制裁加剧,国产化为必然趋势。台积电宣布自2024年11月11日起,暂停向所有中国大陆AI/GPU客户供应7纳米(nm)及更先进工艺的芯片。此外,美国政府在AI出口管制临时最终规则的基础上,进一步禁止台积电、三星电子等全球顶尖芯片代工厂向中国出口或代工先进芯片。根据最终规则,所有14纳米或16纳米及以下制程的芯片将被默认列入限制范围,需要获得美国许可才能在中国销售。 投资建议。端侧AI为Deepseek模型开源直接受益的领域之一,国产算力和推理ASIC需求旺盛。此外,AI应用领域将会随着模型开源而展现百花齐放的局面。 机器人有望成为端侧AI下一阶段的重要增长领域。建议关注:1、端侧AI:(1)高性能SoC/物联网模组/AI机器人;(2)低功耗SoC/AI玩具眼镜耳机手表; (3)模组;(4)存储。2、国产算力和推理ASIC:(1)AI芯片;(2)半导体;(3)国产算力供应商;(4)算力租赁。3、AI应用:(1)端侧公司;(2)与DeepSeek开展合作的公司;(3)AI安全。4、机器人:(1)部件;(2)主芯片。 风险分析:半导体需求不及预期;宏观经济不如预期;行业竞争加剧。 1、DeepSeek发布最新模型,各方力量支持 1.1DeepSeek-R1发布,性能对标OpenAI o1正式版 2025年01月20日,DeepSeek正式发布DeepSeek-R1,并同步开源模型权重。DeepSeek-R1在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力,在数学、代码、自然语言推理等任务上,性能比肩OpenAI o1正式版。 图1:Deepseek性能对齐OpenAI-o1正式版 DeepSeek蒸馏小模型超越OpenAI o1-mini。DeepSeek官方在开源DeepSeek-R1-Zero和DeepSeek-R1两个660B模型的同时 , 通过DeepSeek-R1的输出,蒸馏了6个小模型开源给社区,其中32B和70B模型在多项能力上实现了对标OpenAI o1-mini的效果。 图2:DeepSeek DeepSeek开放许可证和用户协议。为了推动和鼓励开源社区以及行业生态的发展,在发布并开源R1的同时,DeepSeek同步在协议授权层面进行了如下调整: 1)模型开源License统一使用MIT。DeepSeek曾针对大模型开源的特点,参考当前行业的通行实践,特别引入DeepSeek License为开源社区提供授权,但实践表明非标准的开源License可能反而增加了开发者的理解成本。为此,此次Deepseek的开源仓库(包括模型权重)统一采用标准化、宽松的MIT License,完全开源,不限制商用,无需申请。 2)产品协议明确可“模型蒸馏”。为了进一步促进技术的开源和共享,DeepSeek决定支持用户进行“模型蒸馏”。DeepSeek已更新线上产品的用户协议,明确允许用户利用模型输出、通过模型蒸馏等方式训练其他模型。 登录DeepSeek官网或官方App,打开“深度思考”模式,即可调用最新版DeepSeek-R1完成各类推理任务。 DeepSeek-R1 API服务定价为每百万输入tokens 1元(缓存命中)/ 4元(缓存未命中),每百万输出tokens 16元。 图3:DeepSeek-R1 API 图4:o1类推理模型输入输出价格 1.2DeepSeek-V3性能对齐海外领军闭源模型 2024年12月26日,DeepSeek全新系列模型DeepSeek-V3首个版本上线并同步开源。DeepSeek-V3为自研MoE模型,671B参数,激活37B,在14.8T token上进行了预训练 。DeepSeek-V3多项评测成绩超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型,并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。 图5:DeepSeek-V3性能对齐海外领军闭源模型 1)百科知识 :DeepSeek-V3在知识类任务 (MMLU,MMLU-Pro,GPQA,SimpleQA)上的水平相比前代DeepSeek-V2.5显著提升,接近当前表现最好的模型Claude-3.5-Sonnet-1022。 2)长文本:长文本测评方面,在DROP、FRAMES和LongBench v2上,DeepSeek-V3平均表现超越其他模型。 3)代码:DeepSeek-V3在算法类代码场景(Codeforces),远远领先于市面上已有的全部非o1类模型,并在工程类代码场景(SWE-Bench Verified)逼近Claude-3.5-Sonnet-1022。 4)数学:在美国数学竞赛(AIME 2024, MATH)和全国高中数学联赛(CNMO 2024)上,DeepSeek-V3大幅超过了所有开源闭源模型。 5)中文能力:DeepSeek-V3与Qwen2.5-72B在教育类测评C-Eval和代词消歧等评测集上表现相近,但在事实知识C-SimpleQA上更为领先。 图6:DeepSeek-V3性能对比 通过算法和工程上的创新,DeepSeek-V3的生成吐字速度从20 TPS大幅提高至60 TPS,相比V2.5模型实现了3倍的提升,为用户带来更加迅速流畅的使用体验。随着性能更强、速度更快的DeepSeek-V3更新上线,DeepSeek-V3的模型API服务定价也将调整为每百万输入tokens 0.5元(缓存命中)/ 2元(缓存未命中),每百万输出tokens8元,以期能够持续地为用户提供更好的模型服务。 图7:DeepSeek-V3API服务价格 DeepSeek-V3采用FP8训练,并开源了原生FP8权重。得益于开源社区的支持,SGLang和LMDeploy第一时间支持了V3模型的原生FP8推理,同时TensorRT-LLM和MindIE则实现了BF16推理。此外,为方便社区适配和拓展应用场景,DeepSeek提供了从FP8到BF16的转换脚本。 1.3DeepSeek V3和R1模型完成海光DCU适配并正式上线 海光信息技术团队成功完成DeepSeek V3和R1模型与海光DCU(深度计算单元)的适配,并正式上线。用户现可通过“光合开发者社区”中的“光源”板块访问并下载相关模型,或直接登录[www.sourcefind.cn]搜索“DeepSeek”,即可基于DCU平台快速部署和使用相关模型。 图8:海光信息“光源”板块 DeepSeek V3和R1模型采用了Multi-Head Latent Attention(MLA)、DeepSeekMoE、多令牌预测、FP8混合精度训练等创新技术,显著提升了模型的训练效率和推理性能。DCU是海光信息推出的高性能GPGPU架构AI加速卡,致力于为行业客户提供自主可控的全精度通用AI加速计算解决方案。凭借卓越的算力性能和完备的软件生态,DCU已在科教、金融、医疗、政务、智算中心等多个领域实现规模化应用。 在芯片领域,天数智芯、摩尔线程接连宣布支持DeepSeek模型,而英伟达、AMD、英特尔等海外芯片巨头均完成支持。 图9:近期官宣支持DeepSeek模型的芯片企业 1.4DeepSeek获四大云服务厂商支持 DeepSeek在消费者中引爆的同时 , 阿里云和百度智能云先后官宣了对DeepSeek-V3、DeepSeek-R1模型的支持。百度智能云更是直接公布了模型的输入和输出价格。 图10:百度智能云公布的模型的输入和输出价格 加之此前的华为云、腾讯云,目前国内四大云巨头都已正式支持DeepSeek。此前海外的AWS、微软智能云等云巨头也已官宣支持。 图11:近期官宣支持DeepSeek模型的云服务企业 2025年2月1日,华为云正式宣布,经过华为云和硅基流动团队攻坚,双方联合首发并上线了基于华为云昇腾云服务的DeepSeek-R1/V3推理服务。华为云提到,得益于自研推理加速引擎加持,双方支持部署的DeepSeek模型可以获得持平全球高端GPU部署模型的效果。 2025年2月2日,腾讯云宣布对DeepSeek-R1模型的支持,在腾讯云的HAI平台上,开发者大约花3分钟就可以接入并调用模型。 图12:硅基流动联合华为云上线的DeepSeek-R1/V3推理服务 图13:腾讯HAI平台 2月3日下午16点58分,阿里云宣布其PAI Model Gallery支持云上一键部署DeepSeek-V3、DeepSeek-R1。44分钟后,百度智能云也宣布了其千帆平台正式上架DeepSeek-R1和DeepSeek-V3模型,并直接公布了价格。 图14:PAI Model Gallery 全尺寸DeepSeek模型登陆火山引擎。火山引擎将支持V3/R1等不同尺寸的DeepSeek开源模型,可以通过两种方式进行模型使用:1)在火山引擎机器学习平台veMLP中部署,目前veMLP已经支持全尺寸DeepSeek模型,并仔细对SGLang和vLLM做过性能调优和效果评测,火山引擎自研PD分离+EP并行的推理引擎也即将推出,全面开放,适用于自己进行模型定制、部署、推理的企业。2)在火山方舟中调用模型,适用于期望通过