您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[哈工大计算学部]:2025大模型原理、技术与应用:从GPT到DeepSeek - 发现报告

2025大模型原理、技术与应用:从GPT到DeepSeek

信息技术2025-02-27车万翔哈工大计算学部F***
AI智能总结
查看更多
2025大模型原理、技术与应用:从GPT到DeepSeek

从GPT到DeepSeek从GPT到DeepSeek 车万翔 哈工大计算学部人工智能学院社会计算与交互机器人研究中心(HIT-SCIR) 2025年2月28日 为什么是语言? “语言是继真核细胞之后最伟大的进化成就” “语言本身就是人类有史以来最大的技术发明” 什么是自然语言处理? “自然语言处理是人工智能皇冠上的明珠” “如果给我10亿美金,我会建造一个NASA级别的自然语言处理研究项目” 自然语言处理的发展历史 预训练语言模型并不能真正克服深度学习模型鲁棒性差、可解释性弱、推理能力缺失的瓶颈,故在深层次语义理解上与人类认知水平还相去较远! 解决方案:ChatGPT(OpenAI,2022.11) ChatGPT的关键核心技术(1/3):无监督学习 DeepSeek-R1的横空出世 从DeepSeek-V1到R1 发布时间:2025.1核心技术:SFT学习推理格式+RL学习推理能力训练稳定程度:很稳定最大参数量:671B(激活37B) R1-Zero 发布时间:2025.1核心技术:只使用RL学会推理能力+将RL引入基模型架构训练稳定程度:很稳定最大参数量:671B(激活37B) 发布时间:2024.12核心技术:基于bias负载均衡+MTP(多词元预测)训练数据量:14T训练稳定程度:稳定最大参数量:671B(激活37B)训练成本:2788KGPU小时/$5.58M V2 发布时间:2024.5核心技术:MoE(更多共享专家)+MLA(多头潜在注意力)训练数据量:8T训练稳定程度:较稳定最大参数量:236B(激活21B)训练成本:172.8K GPU小时 V1 发布时间:2024.1核心技术:类LLaMA架构+SFT+RLHF训练数据量:2T训练稳定程度:不稳定最大参数量:67B 自然语言处理的发展历史 推理采用的核心技术 只用RL习得推理能力DeepSeek-R1-Zero R1-Zero核心技术 R1-Zero实验结果 R1-Zero实验结果 R1-Zero实验结果 R1-Zero实验结果 DeepSeek-R1提升推理的规范性和泛化性 R1总路线 R1总路线 R1总路线 极致的模型架构优化 主要模型架构优化技术 算法优化——DeepSeekMoE Infra优化——FP8混合精度训练 大模型的应用 Prompt工程 一、撰写清晰的指令:在查询中包含详细信息,以获得更相关的答案 一、撰写清晰的指令:使用分隔符标识输入的不同部分 一、撰写清晰的指令:提供示例 二、提供参考资料 三、分解复杂问题 四、使用外部工具 五、给模型时间思考 推广大模型应用 HIT-SCIR大模型方向规划 应用领域 “活字”对话大模型 珠算代码大模型 珠算代码大模型演示 基于大模型的精神健康计算系统 人机融合医疗会诊平台 机器脑系统效果展示 人工智能未来发展方向 自然语言处理的发展历史 谢谢大家!