DeepSeek内部研讨系列 DeepSeek私有化部署和一体机 AI肖睿团队 (韩露、王春辉、顾跃、李娜、谢安明、陈钟) 2025年2月24日 北大青鸟人工智能研究院 北大计算机学院元宇宙技术研究所 摘要 1本次讲座为DeepSeek原理和应用系列研讨的讲座之一,让大家可以决策是否需要自己部署DeepSeek系列模型,并了解自己本地化部署DeepSeek的基本方法,同时了解更专业的企业级部署方法,有助于选择DeepSeek一体机型号,并能理解DeepSeek云服务的工作机制和原理,用好DeepSeek云服务的API调用方法。 2本讲座的内容分为四个主要部分: 首先,除了DeepSeek满血版之外,还有各种各样的蒸馏版和量化版,以及DeepSeek的不同专业模型。我们将介绍人工智能大模型的基本概念,以及DeepSeek各个模型的特点与适用场景,对比不同规模模型的性能表现,帮助大家选择最适合自己需求的版本。 其次,对于普通用户在自己的电脑上部署和体验DeepSeek(蒸馏版)的情况,我们会评估和建议硬件要求,演示如何通过Ollama命令行高效部署DeepSeek模型,解决下载过程中可能遇到的常见问题。为了提升在自己的电脑上安装DeepSeek模型后,大家与DeepSeek模型的交互体验,我们还将介绍OpenWebUI和Chatbox等前端展示工具的配置与使用方法。 然后,对于专业级的企业部署DeepSeek,或把DeepSeek(蒸馏版和满血版)部署在专业的昂贵的推理机上,本讲座将探讨基于 Transformers快速验证和vLLM的高性能部署方案,并提供真实企业基于vLLM的部署DeepSeek70b的相关数据和经验。 最后,作为补充内容,针对计算资源受限的场景,我们专门设计了低成本部署环节,详细讲解UnslothR1动态量化部署的三种实 现路径:基于llamacpp、KTransformers以及Ollama框架动态量化部署。 3在技术学习的道路上,优质学习资源至关重要。推荐大家参考《人工智能通识教程(微课版)》这本系统全面的入门教材,结合B站“思睿观通”栏目的配套视频进行学习。此外,欢迎加入aikgccn社区,以及“AI肖睿团队”的视频号和 微信号,与志同道合的AI爱好者交流经验、分享心得。2 目录 01人工智能与DeepSeek 3 03企业部署DeepSeek 02个人部署DeepSeek 3 04DeepSeek一体机 PART01 人工智能与DeepSeek 4 大模型相关术语 5 多模态 文本、图片、音频、视频 AI工具(国内) DeepSeek、豆包、Kimi、腾讯元宝、智谱清言、通义千问、秘塔搜索、微信搜索 通用模型 大语言模型(LLM,LargeLanguageModel) 生成模型 推理模型 视觉模型(图片、视频) 音频模型 多模态模型 行业模型(垂直模型、垂类模型) 教育、医疗、金融、办公、安全等 大模型的前世今生 6 人工智能:让机器具备动物智能,人类智能,非人类智能(超人类智能) 运算推理:规则核心;自动化 知识工程:知识核心;知识库推理机 机器学习:学习核心;数据智能(统计学习方法,数据建模) 常规机器学习方法:逻辑回归,决策森林,支持向量机,马尔科夫链, 人工神经网络:与人脑最大的共同点是名字,机制和架构并不一样 传统神经网络:霍普菲尔德网络,玻尔兹曼机, 深度神经网络:深度学习 传统网络架构:DBN,CNN,RNN,ResNet,Inception,RWKV, Transformer架构:可以并行矩阵计算(GPU),核心是注意力机制(Attention) 编码器(BERT):多数embedding模型,Ernie早期版本, 混合网络:T5、GLM 解码器(GPT):大语言模型(LLM),也是传统的多模态模型的核心 生成式人工智能(GenAI):AIGC DeepSeek、Qwen、GLM、Step、MiniMax、hunyuan、kimi、火山、 OpenAIGPT(ChatGPT)、Claude、Llama、Grok、 Diffusion架构:主要用于视觉模型(比如StableDiffusion、DALLE),现在也开始尝试用于语言模型 DiffusionTransformer架构:例如Sora的DiT(加入Diffusion的视觉模型),部分新的多模态模型架构 大模型的发展阶段 ref中文大模型基准测评2024年度报告202501087 生成模型推理模型 生成模型与推理大模型的对比 8 比较项 OpenAIGPT4o(生成模型) OpenAIo1(推理模型) 模型定位 专注于通用自然语言处理和多模态能力,适合日常对话、内容生成、翻译以及图文、音频、视频等信息处理、生成、对话等。 侧重于复杂推理与逻辑能力,擅长数学、编程和自然语言推理任务,适合高难度问题求解和专业领域应用。一般是在生成模型的基础上通过RL方法强化CoT能力而来 推理能力 在日常语言任务中表现均衡,但在复杂逻辑推理(如数学题求解)上准确率较低。 在复杂推理任务表现卓越,尤其擅长数学和代码等推理任务。 多模态支持 支持文本、图像、音频乃至视频输入,可处理多种模态信息。 当前主要支持文本输入,不具备图像处理等多模态能力。 应用场景 适合广泛通用任务,如对话、内容生成、多模态信息处理以及多种语言相互翻译和交流;面向大众市场和商业应用。 适合需要高精度推理和逻辑分析的专业任务,如数学竞赛、编程问题和科学研究;在思路清晰度要求高的场景具有明显优势,比如采访大纲、方案梳理。 用户交互体验 提供流畅的实时对话体验,支持多种输入模态;用户界面友好,适合大众使用。 可自主链式思考,不需要太多的过程指令,整体交互节奏较慢。 普通大模型是玩知识和文字的,推理大模型是玩逻辑的,至于计算问题,还是找计算器吧 推理模型也不是万能的,其幻觉通常比生成模型大,很多不需要强推里的场合还是传统的生成模型比较适合 9 9 自2024年起,AI肖睿团队便接入DeepSeekV2,持续应用DeepSeek技术体系,历经V2(MoE架构)、V3(MTP)探索,现已在生产项目中接入DeepSeekR1(满血版)。其中,V2和V3都是生成模型,R1为推理模型。 下面,基于我们团队对DeepSeek的技术研究和实战经验,为大家系统梳理这三大模型技术特性,剖析知识蒸馏在各版本提升效率的逻辑,并结合边缘计算、数学编程、中文等场景实例,对比DeepSeekR1各版本模型的计算效率与推理精度的演进,同时说明标准化APISDK对技术落地的适配机制。 10 DeepSeek快速出圈 DeepSeek“服务器繁忙” 2024年12月26日,DeepSeek因推出对标GPT4o的语言模型DeepSeekV3,首先在美国的人工智能行业内部一起轰动。 2025年1月20日,DeepSeek继续发布对标OpenAIo1的语言 模型DeepSeekR1。由于“深度思考”模式生成的答案的过程可视化,完全开源模型参数和技术方案,采用极致的模型架构优化和系统优化 手段降低了模型的训练和推理成本,加之完全由中国本土团队制造,让DeepSeek公司和DeepSeekR1模型在蛇年春节前后彻底出圈。 春节之后,随着大量用户的快速涌入,DeepSeek官方提供的模型服务就一直在经历拥堵,它的联网搜索功能间歇性瘫痪,深度思 考模式则高频率提示“服务器繁忙”,此类现象让大量用户倍感困扰。 11 这也揭示了AI时代和互联网时代的底层逻辑的不同:在互联网时代,用户使用一个系统的成本很低,边际成本接近于零,但在AI时代,用户使用一个系统的成本比较高,后天会有大量的算力需求和token消耗,边际成本下降并不明显。 公司与模型介绍 01 模型系列 公司简介 DeepSeek于2023年7月成立,是幻方量化孵化出的一家大模型研究机构,团队分布在中国杭州和北京,是中国大模型七小虎之一。 12 除了DeepSeek之外,其它六家也被投资界称为中国大模型企业六小龙(智谱AI、百川智能、月之暗面、零一万物、阶跃星辰、MiniMax)。 13 模型的演进历史和特点 三个主要的DeepSeek模型的区别 对比维度 DeepSeekV2 DeepSeekV3 DeepSeekR1 核心架构 DeepSeekMoE(混合专家架构改进版)总参数量2360亿单次激活210亿参数 升级版DeepSeekMoE架构总参数量6710亿单次激活370亿参数 与V3模型相同 训练方法 传统预训练监督微调(SFT) 强化学习(RL) 数据量81万亿tokens 预训练SFTMTPRL引入GRPO算法提升RL效率和效果数据量148万亿tokens 跳过SFT,直接通过RL激发推理能力采用两阶段RL和冷启动技术 部分关键特性 首次引入MoE架构,并进行了改进你 无辅助损失的负载均衡代码任务生成速度提升至60TPS RL驱动推理优化模型蒸馏实验(可迁移至小模型)Zero版验证了自我进化能力 性能表现举例 生成速度20TPS,适合通用生成任务 综合NLP任务接近GPT4oMMLU知识理解885API成本大幅降低 数学推理(MATH500973)代码生成(Codeforces)与openAI o11217相当 14 模型简介DeepSeekV2 模型简介 DeepSeekV2模型与DeepSeekLLM67B相比,DeepSeekV2实现了更强的性能,同时节省了425的训练成本,减少了933的KV缓存,并将最大生成吞吐量提升至576倍。 设计初衷 DeepSeekV2旨在解决现有大语言模型训练成本高、推理效率低的问题。通过引入MoE架构,它在保持高性能的同时,大幅降低训练成本和推理时间,为广泛的应用场景提供支持。 核心原理 DeepSeekV2基于混合专家(MixtureofExperts,MoE架构,将任务分配给多个专家模型,每个专家专注于特定子任务,从而提升性能和效率。模型总参数量为236B,其中21B参数在每个token上被激活,使其在处理复杂任务时 更灵活高效。15 模型简介DeepSeekV3 模型简介 DeepSeekV3模型采用的模型架构与V2模型差不多,都采用MLA和MoE。V3在V2的基础上主要是增加了多令牌预测 (MultiTokenPredictionMTP)的训练目标。 我们都知道大模型是自回归模型,在回答问题时,本质上是一个字一个字的预测出来的,而MTP实现了类似同时预测多个字的效果。 准确地讲,这里不是“字”,是“token”。这里用“字”,主要是便于 理解。 16 模型简介DeepSeekR1 与以往的研究不同,R1模型通过强化学习而非监督学习的方式显著提升了大模型的在数学和逻辑推理任务中的表现,验证了强化学习在提升模型推理能力上的作用。 通过强化学习自动学习复杂的推理行为 (自我验证与反思),然后随着训练的深入,模型逐步提升了对复杂任务的解答能力,并显著提高了模型推理能力。在数学和编程基准测试集上,与openAIo1模型的表现相当并大幅超越其它现有大模型。 17 DeepSeek模型优势 18 DeepSeek模型优势 19 DeepSeek模型优势 20 第21页 21 DeepSeek的算法和算力突破 Deepseek官网地址: httpaicom httpschatdeepseekcom DeepSeekR1训练技术全部公开,论文链接: httpsgithubcomdeepseekaiDeepSeek R1blobmainDeepSeekR1pdf DeepSeekR1达到了跟o1相当、或者至少接近的推理能力,且将推理过程可视化 它做到这个水平只用到少得多的资源,所以价格十分便宜 它是完全开源的并且还发布论文,