您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[清华大学]:从千亿模型到ChatGPT的一点思考2023 - 发现报告
当前位置:首页/行业研究/报告详情/

从千亿模型到ChatGPT的一点思考2023

AI智能总结
查看更多
从千亿模型到ChatGPT的一点思考2023

从千亿模型到ChatGPT的⼀点思考 唐杰 清华⼤学计算机系知识⼯程实验室(KEG) 试试我们的系统 •ChatGLM-6B开源,10天10000stars •当天在GitHub的趋势排行第一 •过去10天在Huggingface趋势排行第一 •开源的训练数据量达到1万亿字符的模型 预训练大模型是新一代人工智能应用的基础设施 大模型通用能力强,可完成多场景任务,降低成本,提高效率 大模型从单模态向多模态发展,从文本逐步发展到视觉、虚实迁移控制 现有300+应用基于OpenAIGPT-3开发OpenAI与阿里、智源均已推出多模态模型 DALL·E 悟道2.0 模型参数 GLM-130B大模型 模型参数1300亿 大模型已成为各国人工智能技术新方向,亟需建立以中文为核心的超大规模预训练模型 ChatGPT,GPT-4 ChatGLM GPT 模型参数1.1亿 GPT-2 模型参数 15亿 GPT-3 模型参数1750亿 DALL-E 模型参数1.6万亿 1.75万亿 2021年 2022年 出现大规模基于预训练模型的应用 GLM-130B:125T中英文 文本6亿图+千万级视频千 2023年 ChatGLM:基于GLM-130B底座,具备问答和对话功能的千亿中英双语模型 GPT-4:多模态大模型,可 2018年 Transformer应用在OpenAIGPT1中,Transformer架构是预训练大模型的技术基 础 2019年 OpenAIGPT2.0 BAIDUErnie1.0,基于 Bert模型做进一步优化 2020年 OpenAIGPT3,跨时代意义的语言大模型,标志着AI文本生成到下一个阶段 DALL-E/Clip:OpenAI大规模图像模型,可基于短文本生成对应图像和进行图像分类 AliceMind:阿里大规模多模态模型,集合语言理解与生成能力 万级别知识图谱 ChatGPT:在问答模型中引入人类反馈强化学习,大幅提升生成结果质量 ChatGPT 同时实现图像和文本输入 ErnieBot(文心一言):百度全新一代知识增强大语言模型 GPT-4 预训练⼤模型 GPT-2GPT-3 DALL·E 3 4 4 ChatGPT带来的机遇与挑战 ChatGPT的出现表明我们在大模型上的研究还存在代差 同时ChatGPT仍然存在认知推理能力不足的问题,常识缺乏 成功:逻辑性很强 不足:缺乏常识 清华、智谱联合在国产超算海洋之光上参与训出悟道1.75万亿模型 适配国产超算的DeepSpeed兼容库 系统算法协同设计,具备全机训练百万亿模型的能力 全机性能 单精度 混合精度 万亿模型 647PFLOPS 1.18EFLOPS 十万亿模型 525PFLOPS 1.00EFLOPS 百万亿模型 198PFLOPS 230PFLOPS 智谱 清华和国家超算济南中心、智谱联合研发了GLM-130B普惠模型 国产 清华大模型 国家超算济南中心 我们的⼀点点进展 Attention层的Softmax采用单精度,1%的损失极大稳定了训练训练成本由GPT-3的460万美元降至600万元 国实集团 6 基础架构 训练方式 量化 加速 跨平台能力 自2022年8月发布以来,收到53个国家 GPT3-175B GPT 自监督预训练 — — NVIDIA BLOOM-176B GPT 自监督预训练 INT8 Megatron NVIDIA GLM-130B GLM 自监督预训练和多任务预训练 INT8/INT4 FasterTransformer NVIDIA、 海光DCU、昇腾910和申威 对比优势 高精度: •Big-bench-lite:+5.2%•LAMBADA:+2.3%•CLUE:+24.3%•FewCLUE:+12.8% 普惠推理:节省75%内存可单台3090(4) 或单台2080Ti(8)进行无损推理 高速推理:比Pytorch提速7-8.4倍Megatron提速2.5倍 跨平台: 支持更多不同的大规模语言模型的适配 369个研究机构的使用需求 •Google •Microsoft •Meta •AI2 •Stanford •MIT •UCBerkely •CMU •Harvard •Princeton •Cambridge •华为 •百度 •阿里巴巴 •腾讯 •头条 •滴滴 •建设银行 •智源 •小冰 •小米 •北京大学 •浙江大学 •上海交大 •中科大 •复旦大学 •中科院大学 •香港大学 •香港科技大学 •清华大学 英文:在MMLU、LAMBADA、BIG-bench-lite等超过GPT-3,OPT,PaLM 中文:在CLUE和FewCLUE上远超ERNIE3.0,Yuan GLM-130B与OpenAI、Google、Meta、Microsoft等基础大模型相比,在部分评估指标上具有优势 1.Liangetal.,HolisticEvaluationofLanguageModels.arXiv:2211.091108 双语高精度 Big-bench-lite:+5.2%LAMBADA:+2.3%CLUE:+24.3%FewCLUE:+12.8%30+评测SOTA 高可用、低成本 4*RTX3090可运行其他千亿模型的1/10INT8/4模型量化 2-3倍推理加速 多平台适配 NVIDIAGPU、昇腾910、 海光DCU、申威等芯片适配 准确性Accuracy InstructGPTdavinciv2(175B*) 指令提示微调 OPT(175B)GPT-3davinciv1(175B)GLM(130B)BLOOM(176B)UL2(20B)YaLM(100B) 0.0 0.5 1.0 鲁棒性Robustness InstructGPTdavinci 指令提示微调 v2(175B*)GLM(130B)BLOOM(176B)OPT(175B)GPT-3davinciv1(175B)UL2(20B)YaLM(100B) 0.0 0.5 1.0 Stanford报告的世界主流大模型评测:亚洲唯一入选模型,准确性、恶意性与GPT-3持平,鲁棒性和校准误差在所有模型中表现最佳 校准误差Calibrationerror GLM(130B)GPT-3davinciv1(175B)UL2(20B)InstructGPTdavinciv2(175B*) 指令提示微调 YaLM(100B)OPT(175B)BLOOM(176B) 0.0 0.5 1.0 恶意性Toxicity GPT-3davinciv1(175B)GLM(130B)InstructGPTdavinciv2(175B*) 指令提示微调 OPT(175B)UL2(20B)BLOOM(176B)YaLM(100B) 0.0 0.5 1.0 1.Liangetal.,HolisticEvaluationofLanguageModels.arXiv:2211.09110 GPT系列模型 GPT-1 GPT-2 十亿模型 GPT-3 davinci 千亿基座 Codex 百亿模型 GitHubCopilot code-davinci-002 代码数据预训练 text-davinci-002 InstructGPT 有监督指令微调 text-davinci-003 (RLHF) ChatGPT (RLHF) NewBing(GPT-4) 人类反馈强化学习 GPT-3.5 GPT-3+RLHF GPT-4 WebGPT(RLHF) 18年 6月 19年 2月 20年 5月 21年 7月 21年底 22年 11月 23年 2月 23年 3月 1.千亿基座模型2.有监督指令微调3.人类反馈强化学习 code-davinci-002 代码数据预训练 人类反馈强化学习 GPT-4 GPT-3.5 GPT-3+RLHF WebGPT(RLHF) 18年 6月 19年 2月 20年 5月 20年 11月 21年 5月 21年 7月 21年底 22年 8月 23年 3月 text-davinci-003 (RLHF) CodeGeeX 百亿模型 WebGLM VSCode/JetBrains CodeGeeX插件 GPT-1GPT-2 十亿模型 GPT-3 davinci 千亿基座 Codex 百亿模型 GitHubCopilot text-davinci-002 InstructGPT 有监督指令微调 ChatGPT (RLHF) NewBing(GPT-4) 22年 11月 23年 2月 GLM 百亿模型 mGLM 十亿多语言 GLM-130B 千亿模型 QAGLM ChatGLM (SFT+RLHF) ChatGLM-6B (SFT+RLHF) OpenAIGPT系列模型 GPT-3 davinci 千亿基座 3000亿标识符 Transformer (1750亿参数) GPT 自回归生成 数据神经网络预训练架构 GLM-130B 千亿模型 2000亿中文 2000亿英文 Transformer (1300亿参数) GLM 自回归填空 ChatGLM(v0.8) 15 ChatGLM:JSON格式事件抽取 ChatGLM:Cosplay聊天 标题:古埃及神话的现代冒险 简介:本剧本杀讲述了一群现代冒险家前往古埃及探险,无意中发现了神秘组织的阴谋,他们必须联手阻止这场危机。角色: 1.亚历山大(Alexander):一位年轻的考古学家,对古埃及文化充满热情。 2.艾米丽(Emily):一位聪明的女大学生,对古埃及神话和宗教充满兴趣。 3.布鲁斯(Bruce):一位经验丰富的探险家,擅长挖掘古代文物和宝藏。 4.珍妮(Jenny):一位神秘的女子,似乎知道很多关于神秘组织的事情。 5.神秘人(MysteriousMan):一个神秘的陌生人,经常出现在冒险家们的身边。 场景:本剧本杀的场景设定在古埃及,冒险家们将在古埃及的神庙、陵墓和城市中寻找线索和答案。他们也会遇到各种古埃及神灵和神话中的生物,如奥西里斯、伊西斯、托特和哈托尔等。 剧情:亚历山大是一位年轻的考古学家,他在研究古埃及文化时,发现了一些神秘的线索。他听说古埃及神话中的神灵和神话中的生物与现代世界有着神秘的联系,于是决定前往古埃及探险。 在古埃及,亚历山大遇到了艾米丽和布鲁斯,他们一起进入了一些古老的神庙和陵墓中寻找答案。他们发现了一些古代文物和宝藏,但也遇到了一些危险。在一次战斗中,他们无意中发现了神秘组织的阴谋。 神秘组织是一个古老的组织,他们试图通过古埃及神话中的生物和神灵来掌控世界。他们计划利用这些生物和神灵来发动战争,并掌控整个世界。艾米丽和布鲁斯意识到他们的冒险家朋友已经成为了神秘组织的靶子,他们必须联手阻止这场危机。 珍妮是一位神秘的女子,她似乎知道很多关于神秘组织的事情。她告诉冒险家们,神秘组织可以追溯到古埃及时期,他们一直在寻求掌控世界的力量。她告诉他们,只有找到神秘的“神器”,才能阻止神秘组织的阴谋。 冒险家们踏上了寻找“神器”的旅程。他们来到了古埃及的城市,找到了一些线索。但他们很快发现,他们不仅要面对神秘组织的攻击,还要面对一些神秘的生物和神灵。他们必须利用自己的智慧和勇气,才能取得胜利。 最终,冒险家们找到了“神器”,并成功地阻止了神秘组织的阴谋。但他们也明白了,神秘组织永远不会停止寻找掌控世界的力量,他们必须时刻保持警惕。 结尾:本剧本杀以冒险家们成功阻止神秘组织的阴谋为背景,他们在古埃及的神庙和陵墓中冒险,寻找答案和线索。他们不仅面对着危险,还要应对一些神秘的生物和神灵。他们的胜利不仅代表着正义的胜