王磊
中国科学院自动化研究所研究员中科闻歌董事长
人工智能技术发展
01
Deepseek认知与影响
02
AI+金融实践案例
03
04创业介绍—中科闻歌
01人工智能技术发展
ChatGPT不是基础科学突破,是工程积累奇迹
人机协同群体智慧(人力密集工程)
大模型技术大集成(智力密集工程)
大数据加大算力(算力密集工程)
大模型:智力密集型工程
AI+行业落地三步曲
STEP1
STEP2
STEP3
模型工程
领域工程
数据工程
继续预训练、多模型适配
高质量领域数据治理
指令微调、回馈学习、应用研发
大模型应用到行业领域关键挑战:静态模型与动态数据的不匹配
AI+行业数智化路径思考:先升级、再泛化、后革新
应用0-1创新:
升级赋能:
新业务、新功能,面上谋划
现有系统和业务小模型,点上赋能
l新型研判范式、l未来态势l广域理解+高效推演
l数据分析、知识积累l分析深度+高质量+l高效率
抓手与支撑:打造领域大模型
l前瞻性定义领域大模型与业务系统标准接口,多型共进,形成MoE(混合专家模型)生态,严格把好内容安全关,连续测试
02Deepseek认知与影响
DeepSeek模型发展
DeepSeekR1加速“o1时刻”到来
深度思考模型让大模型领域再度迎来“ChatGPT/o1时刻”
“有限算力+算法创新”发展模式是突破算力卡脖子限制的关键
“开源”加速促进人工智能技术快速迭代
模型架构创新
强化学习高效
开源
全方位技术开源
高效训练-提升数据利用效率高效思考-提升思考信息密度
MoE/MTP/MLA提升训推效率
DeepSeek三大特征
特征一:复制OpenAIo1技术思路
通过大规模RL(强化学习)训练,逐步增加模型思考时间,涌现出“Ahamoment”的顿悟与反思行为,社区自发验证,影响力超过预期
OpenAI首席研究官MarkChen承认DeepSeekR1揭示o1核心思想
DeepSeek三大特征
特征二:通过工程优化极致压缩训练成本
架构侧优化提升训练推理效率
•MoE:采用细粒度专家和共享专家,671B参数,每个token激活参数37B,降本增效。•MLA:多头潜在注意力(Multi-HeadLatentAttention)通过低秩压缩减少KV缓存。•MTP:通过预测多个未来token提升规划能力(Multi-TokenPrediction),也用于推理加速。
Infra优化榨干阉割版特供显卡性能
•计算集群:2048*NVIDIAH800GPU并行训练。•训练框架:流水线并行+专家并行+数据并行,定制化PTX指令集(所谓“绕过CUDA”),提升节点间通信效率。•FP8混合精度训练:首次验证FP8训练的可行性,显著降低GPU内存使用并加速训练。
DeepSeek三大特征
特征二:通过工程优化极致压缩训练成本
DeepSeek通过PTX编程“绕过CUDA”?
•CUDA和PTX的关系:
•PTX(ParallelThreadExecution)是英伟达的并行线程执行中间表示语言(底层汇编语言)•CUDA(ComputeUnifiedDeviceArchitecture)是英伟达统一设备计算架构,封装了C++实现的GPU编程接口•CUDA编译器(NVIDIACUDACompiler,即nvcc)在编译流程中把CUDA代码编译为PTX代码,PTX代码会被进一步编译为特定GPU架构的机器码(ShaderAssembly,SASS),二进制机器码在GPU上执行。
•结论:
•PTX是CUDA编译的中间表示,仍然依赖于CUDA的编译器和运行时环境(类似于windows驱动程序开发)并不意味着真正绕过了CUDA。•高级场景中,开发者可以直接编写PTX代码,并将其嵌入到CUDA程序中,用于性能优化,但仍然是在CUDA框架内进行的。
https://developer.download.nvidia.com/compute/cuda/docs/CUDA_Architecture_Overview.pdf
DeepSeek三大特征
特征二:通过工程优化极致压缩训练成本
关于DeepSeek真实成本的估算?
•硬件成本:据外媒报道幻方拥有2w-5w块GPU,购买和运维成本过亿美元/年(保守估计至少有1w块A100,2000+块H800,这部分硬件购买成本就超过2亿美元)。
•训练成本:DeepSeekV3基座模型预训练语料14.8Ttokens,预训练+后训练57天(278.8万卡时)成本557.6万美元(不含小规模模型的消融实验)。
•数据成本:预训练数据采集和购买,SFT数据构建和质检,无法量化。
其他大模型训练成本:
OpenAlGPT-47800万美元GoogleGeminiUltra1.91亿美元Claud的训练成本数千万美元
DeepSeek三大特征
特征三:定位为OpenAIo1的开源平替
NVIDIANIM、AWS、Azure等云服务平台上架DeepSeekAPI
Windsurf等AI初创公司集成DeepSeek模型能力实现各种场景
DeepSeek全系列开源模型权重(未开源训练代码&训练数据)
DeepSeek三大特征
特征三:定位为OpenAIo1的开源平替
DeepSeek会被国外禁用吗?
•模型权重开源,无法禁用:开源的模型权重任何人都可以下载,就像unix、MySQL。开源模型在huggingface、github等平台可以任意下载。
•国外只能禁止调用中国大模型MaaSAPI服务,禁止使用DeepseekAPP和网页端,无法禁止机构和个人下载开源模型。
可禁用
不可禁用
DeepSeek-R1-Zero
(671B,激活37B,128K上下文)
基于DeepSeek-V3-Base验证纯RL方案(GRPO+基于规则的奖励)的可行性。但存在可读性差、语种混杂等缺点。
DeepSeek-R1
(671B,激活37B,128K上下文)
基于Zero构建数千条冷启动数据做SFT+RL,拒绝采样60wSFT数据,配比共80w数据基于Base模型进行两阶段训练(SFT+RL)得到更强模型R1,整体能力对标OpenAIo1。
DeepSeek-R1-Distill
(1.5B/7B/8B/14B/32B/70B)
训R1的80w数据通过纯SFT蒸馏小模型,比直接对小模型做RL效果好,整体能力对标OpenAIo1-mini。
如何通过GRPO训练DeepSeek-R1-Zero?(核心)
为啥不用NN-basedRM?
基于神经网络的奖励模型大规模强化学习过程中存在rewardhacking,且训练奖励模型需要额外的训练资源。
RL训练使用的指令模版
该模板的目标是让模型按照指定的结构和步骤生成推理过程和最终答案,而不强制规定具体的推理方法或解题策略,不人为干预或限制,避免对模型产生内容偏见。
奖励建模(基于纯规则的奖励)
•准确性奖励:答案正确则奖励。对于数学问题,让模型以指定格式(\box)给出最终答案,以便基于规则校验;对于LeetCode问题,可以使用编译器根据预定义的测试用例生成反馈。•格式奖励:比如将思考过程放在