天津大学自然语言处理实验室 TheNaturalLanguageProcessingLaboratoryatTianjinUniversity 深度解读DeepSeek:原理与效应 熊德意天津大学dyxiong@tju.edu.cnhttps://dyxiong.github.iohttps://tjunlp-lab.github.io 伏羲传语 报告目录 01 大语言模型发展路线图 02 DeepSeekV2-V3/R1技术原理 03 DeepSeek效应 04 未来展望 ENIAC 图灵测试 达特茅斯会议 ELIZA AI寒冬I专家系统AI寒冬II统计方法 NN再兴起 1945 1950 1956 1966 1974-19801980-19871987-1990s1990-2000s 2006- 20142024 AGI…ASI 生成式AI Attention2014 Transformer2017 ScalingLaws|GPT-32020 RLHF|ChatGPT2022 o1/R12024 生成式AI:使用生成式模型生成各类数据(语言、语音、图片、视频等) oAttention:数据依存关系建模 oTransformer:数据生成的统一架构 oScalingLaws:数据学习、生成的扩展法则 oRLHF:生成与人类价值对齐的数据 oo1/R1:生成式求解问题——生成问题求解的过程和答案(推理) ENIAC 图灵测试 达特茅斯会议 ELIZA AI寒冬I专家系统AI寒冬II统计方法 NN再兴起 1945 1950 1956 1966 1974-19801980-19871987-1990s1990-2000s 2006- 20142024 AGI…ASI 生成式AI Attention2014 Transformer2017 ScalingLaws|GPT-32020 RLHF|ChatGPT2022 o1/R12024 生成式AI:使用生成式模型生成各类数据(语言、语音、图片、视频等) oAttention:数据依存关系建模 oTransformer:数据生成的统一架构 oScalingLaws:数据学习、生成的扩展法则 oRLHF:生成与人类价值对齐的数据 oo1/R1:生成式求解问题——生成复杂问题的答案(推理) ENIAC 图灵测试 达特茅斯会议 ELIZA AI寒冬I专家系统AI寒冬II统计方法 NN再兴起 1945 1950 1956 1966 1974-19801980-19871987-1990s1990-2000s 2006- 20142024 AGI…ASI 生成式AI Attention2014 Transformer2017 ScalingLaws|GPT-32020 RLHF|ChatGPT2022 o1/R12024 生成式AI:使用生成式模型生成各类数据(语言、语音、图片、视频等) oAttention:数据依存关系建模 oTransformer:数据生成的统一架构 oScalingLaws:数据学习、生成的扩展法则 oRLHF:生成与人类价值对齐的数据 oo1/R1:生成式求解问题——生成复杂问题的答案(推理) ENIAC 图灵测试 达特茅斯会议 ELIZA AI寒冬I专家系统AI寒冬II统计方法 NN再兴起 1945 1950 1956 1966 1974-19801980-19871987-1990s1990-2000s 2006- 20142024 AGI…ASI 生成式AI Attention2014 Transformer2017 ScalingLaws|GPT-32020 RLHF|ChatGPT2022 o1/R12024 生成式AI:使用生成式模型生成各类数据(语言、语音、图片、视频等) oAttention:数据依存关系建模 oTransformer:数据生成的统一架构 oScalingLaws:数据学习、生成的扩展法则 oRLHF:生成与人类价值对齐的数据 oo1/R1:生成式求解问题——生成复杂问题的答案(推理) ENIAC 图灵测试 达特茅斯会议 ELIZA AI寒冬I专家系统AI寒冬II统计方法 NN再兴起 1945 1950 1956 1966 1974-19801980-19871987-1990s1990-2000s 2006- 20142024 AGI…ASI 生成式AI Attention2014 Transformer2017 ScalingLaws|GPT-32020 RLHF|ChatGPT2022 o1/R12024 生成式AI:使用生成式模型生成各类数据(语言、语音、图片、视频等) oAttention:数据依存关系建模 oTransformer:数据生成的统一架构 oScalingLaws:数据学习、生成的扩展法则 oRLHF:生成与人类价值对齐的数据 oo1/R1:生成式求解问题——生成复杂问题的答案(推理) 自然语言处理:人类语言的智能化处理与分析,使计算机具备听、说、读、写、译等人所具备的语言能力 语言模型:自然语言统计建模,简单说,就是预测句子中的下一个单词是什么 Zhaoetal.ASurveyofLargeLanguageModels.arXiv:2303.18223 自主规划 工具调用 信息检索 智能客服 图文创作 代码生成 应用层 Application 通用模型行业模型 预训练数据 对齐训练数据 评测数据 数据分类处理流程 语言检测 数据去重 质量筛选 Prompt 知识能力 安全可信 网页书籍代码论文 百科 内容过滤 领域分类 版本控制 ResponsesA>C>B>D 价值对齐 专业领域 行业模型 SpecializedModel 行业数据 行业对齐数据 领域微调训练 领域对齐训练 行业模型部署 行业模型评测 模型训练 模型部署 模型评测 通用模型 General-purpose Model 预训练 对齐训练SFTRLHFDPOBestofNsampling 动态批处理 算子优化 PipelineParallel DataParallel TensorParallel ExpertParallel ZeRO 模型量化 模型蒸馏 SequenceParallel FlashAttention 模型剪枝 性能监控 数据处理和管理 DataProcessingandManagement 硬件 软件 H100 MI350 910B 资源分配负载均衡弹性扩展 A100 MI300 910A 任务调度性能监控容错机制 算力管理 ComputingManagement 本报告来源于三个皮匠报告站(www.sgpjbg.com),由用户Id:107695下载,文档Id:604088,下载日期:2025-02-10 数据处理 预训练 后训练 应用部署 数据治理 数据要素 知识源头 基座模型 自监督学习 能力涌现 对齐模型 微调&强化 安全可信 红队测试 商业落地 模型压缩 o训练范式 •预训练——基座模型 •后训练——对齐模型 •推理训练——推理模型 o关键 •模型架构 •训练算法 •扩展法则 杀手锏:性能/成本曲线|性价比 SashaRushandDanielRitter.SpeculationsonTest-TimeScaling.2024 成本较低 大部分实验室可做 成本高昂(上千万)少数企业/实验室可做 MCTS过程奖励模型PRM SashaRushandDanielRitter.SpeculationsonTest-TimeScaling.2024 01 大语言模型发展路线图 02 DeepSeekV2-V3/R1技术原理 03 DeepSeek效应 04 未来展望 2023.11 DeepSeekV1 2024.11 DeepSeekR1-Lite 2025.01 DeepSeekR1 2024.5 DeepSeekV2 2024.12 DeepSeekV3 天边的两多云(国内外现状) o模型架构:大部分企业采用已验证架构(试错成本高昂)【不敢】 o推理模型:大部分实验室仍在苦苦猜测摸索Q*/o1(OpenAI保密)【不知】 DeepSeekV2主要创新 oDeepSeekMoE oMLA DeepSeekMoE o稀疏激活:计算不随规模呈线性增长 o相比传统MoE:细粒度专家(共享+路由) o路由&通信改造: Device-LimitedRouting AuxiliaryLossforLoadBalance Token-DroppingStrategy MLA:低秩压缩,降低KVcache占用空间 V2规模:236Btotalparameters,21Bactivatedparameters,128Kcontextwindow 训练开销 存储开销 生成速度 杀手锏:性能/成本曲线|性价比 DeepSeekV3主要创新 oInfrastructures oMulti-TokenPrediction(MTP) Infrastructures o减少流水线气泡 o高效节点间All-to-All通信 oFP8训练 o低精度存储与通信 MTP:一次预测多个topken V3规模:671Btotalparameters,37Bactivatedparameters,trainedon14.8Ttokens 杀手锏:性能/成本曲线|性价比 Duringthepre-trainingstate,trainingDeepSeek-V3oneachtrilliontokensrequiresonly180KH800GPUhours,i.e.,3.7daysonourownclusterwith2048H800GPUs.Consequently,ourpre-trainingstageiscompletedinless thantwomonthsandcosts2664KGPUhours. 成本 大模型研发成本 大规模高性能加速器 (折旧) 大模型研发人员成本 大模型架构技术探索成本大模型数据成本 大模型最终训练成本 大模型部署推理成本 杀手锏:性能/成本曲线|性价比 DeepSeekV2-V3及R1在模型架构上选择稀疏MoE模型而非稠密模型,并进行和积 累了大量技术创新,包括MLA、FP8训练、MoEAll-to-All通信瓶颈解决、MTP等,这些技术并不是所有都是原始创新,但是能够进行如此多大模型架构底层创新的实验室,在全世界可能也只有少数几个; DeepSeek所有模型架构上的创新均是围绕“降本增效”:在基本不损害性能前提 下,尽可能通过算法挖掘和提升硬件训练和解码效率 美国采取芯片禁令(全球三级管控)策略维持自己的AI领导地位,DeepSeek算法 绕过了美国的算力护城河 DeepSeekR1主要创新 oDeepSeek-R1-Zero:大规模RL训练,发现了RL训练的ScalingLaws,RL训练涌现“aha”时刻 o推理模型训练技术框架:4步法,有效解决了R1-Zero存在问题,将推理与对齐合为一体 o强化学习训练框架:GRPO,来自DeepSeekMath,降低了强化学习训练成本 o推理模型蒸馏:将大模型推理能力蒸馏到小模型,优于小模型直接进行推理训练(规模效应) 为什么MCTS+PRM是“误区” oThebitterlesson:scalability oOpenAI竞争策略 1.强化学习训练规模大 业内通常训练几十RLsteps,DeepSeek训练几千RLstepsTülu3最大发布模型只训练了~50RLsteps 2.RLTrainingScalingLaw:涌现reflection、aha 自动涌现出搜索、反