您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[清华大学]:从千亿模型到ChatGPT的一点思考2023 - 发现报告

从千亿模型到ChatGPT的一点思考2023

AI智能总结
查看更多
从千亿模型到ChatGPT的一点思考2023

唐杰 清华⼤学计算机系 知识⼯程实验室(KEG) 试试我们的系统 •ChatGLM-6B开源,10天 10000 stars•当天在 GitHub 的趋势排行第一•过去10天在Huggingface趋势排行第一•开源的训练数据量达到1万亿字符的模型 预训练⼤模型 预训练大模型是新一代人工智能应用的基础设施 ChatGPT带来的机遇与挑战 ChatGPT的出现表明我们在大模型上的研究还存在代差 同时ChatGPT仍然存在认知推理能力不足的问题,常识缺乏 成功:逻辑性很强 不足:缺乏常识 我们的⼀点点进展 清华、智谱联合在国产超算海洋之光上参与训出悟道1.75万亿模型 适配国产超算的DeepSpeed兼容库 清华和国家超算济南中心、智谱联合研发了GLM-130B普惠模型 Attention层的Softmax采用单精度,1%的损失极大稳定了训练 训练成本由GPT-3的460万美元降至600万元 千亿GLM-130B 自2022年8月发布以来,收到53个国家369个研究机构的使用需求 •Google•Microsoft•Meta•AI2•Stanford•MIT•UC Berkely•CMU•Harvard•Princeton•Cambridge 千亿GLM-130B GLM-130B与OpenAI、Google、Meta、Microsoft等基础大模型相比,在部分评估指标上具有优势 1.Liangetal.,HolisticEvaluationofLanguageModels.arXiv:2211.09110 千亿GLM-130B Stanford报告的世界主流大模型评测:亚洲唯一入选模型,准确性、恶意性与GPT-3持平,鲁棒性和校准误差在所有模型中表现最佳 3.人类反馈强化学习 OpenAIGPT系列模型 ChatGLM(v0.8) ChatGLM:JSON格式事件抽取 ChatGLM:Cosplay聊天 ChatGLM:创作剧本杀剧本 写一个剧本杀大纲,关于古埃及神话,现代冒险,神秘组织。 简介:本剧本杀讲述了一群现代冒险家前往古埃及探险,无意中发现了神秘组织的阴谋,他们必须联手阻止这场危机。 1.亚历山大(Alexander):一位年轻的考古学家,对古埃及文化充满热情。 2.艾米丽(Emily):一位聪明的女大学生,对古埃及神话和宗教充满兴趣。 3.布鲁斯(Bruce):一位经验丰富的探险家,擅长挖掘古代文物和宝藏。 4.珍妮(Jenny):一位神秘的女子,似乎知道很多关于神秘组织的事情。 5.神秘人(Mysterious Man):一个神秘的陌生人,经常出现在冒险家们的身边。 场景:本剧本杀的场景设定在古埃及,冒险家们将在古埃及的神庙、陵墓和城市中寻找线索和答案。他们也会遇到各种古埃及神灵和神话中的生物,如奥西里斯、伊西斯、托特和哈托尔等。 剧情:亚历山大是一位年轻的考古学家,他在研究古埃及文化时,发现了一些神秘的线索。他听说古埃及神话中的神灵和神话中的生物与现代世界有着神秘的联系,于是决定前往古埃及探险。 ChatGLM:创作剧本杀剧本 写一个剧本杀大纲,关于古埃及神话,现代冒险,神秘组织。 在古埃及,亚历山大遇到了艾米丽和布鲁斯,他们一起进入了一些古老的神庙和陵墓中寻找答案。他们发现了一些古代文物和宝藏,但也遇到了一些危险。在一次战斗中,他们无意中发现了神秘组织的阴谋。 神秘组织是一个古老的组织,他们试图通过古埃及神话中的生物和神灵来掌控世界。他们计划利用这些生物和神灵来发动战争,并掌控整个世界。艾米丽和布鲁斯意识到他们的冒险家朋友已经成为了神秘组织的靶子,他们必须联手阻止这场危机。 珍妮是一位神秘的女子,她似乎知道很多关于神秘组织的事情。她告诉冒险家们,神秘组织可以追溯到古埃及时期,他们一直在寻求掌控世界的力量。她告诉他们,只有找到神秘的“神器”,才能阻止神秘组织的阴谋。 冒险家们踏上了寻找“神器”的旅程。他们来到了古埃及的城市,找到了一些线索。但他们很快发现,他们不仅要面对神秘组织的攻击,还要面对一些神秘的生物和神灵。他们必须利用自己的智慧和勇气,才能取得胜利。 最终,冒险家们找到了“神器”,并成功地阻止了神秘组织的阴谋。但他们也明白了,神秘组织永远不会停止寻找掌控世界的力量,他们必须时刻保持警惕。 结尾:本剧本杀以冒险家们成功阻止神秘组织的阴谋为背景,他们在古埃及的神庙和陵墓中冒险,寻找答案和线索。他们不仅面对着危险,还要应对一些神秘的生物和神灵。他们的胜利不仅代表着正义的胜利,也意味着古埃及神话与现代世界之间的神秘联系得到了维护。 ChatGLM的不同用途 替代搜索 ChatGLM的不同用途 多任务 ChatGLM的不同用途 合理性 ChatGLM的不同用途 数学题 ChatGLM的不同用途 写代码 多轮 多轮 多轮 多轮 多轮 How does this happen? 千亿模型 GPT-3:Size的重要性 •流畅的⽂本⽣成–47%的用户无法区分哪些是GPT-3生成的新闻,哪些是真实用户撰写的新闻 为什么千亿(100B)⼤规模 ⼤规模难题:没⼈⽤得起 p规模vs.精度pOPT和BLOOM等精度相对⼀般p悟道1.75T、M610T使⽤成本太⾼p如何⽀持⽤单机推理pNVIDIAvs.国产化p封闭vs.开源 训练开源开放的⾼精度千亿中英双语稠密模型,对⼤模型研究有重⼤意义 训练出GPT-3本⾝就⾯临重重挑战…… p训练成本⾼昂:训练1750亿参数的GPT-3使⽤了上万块V100,机时费⽤是460万美元,总成本据悉达到1200万美元 p⼈⼒投⼊极⼤:⾕歌PaLM540B的团队:前期准备29⼈,训练过程11 p训练过程不稳定:容易出现训练不收敛现象 GLM-130B:千亿模型之旅 p8个⽉时间,从零开始解决⽆数的难题: p算法难题:千亿模型的混合精度训练⾮常不稳定,且调试困难 p模型梯度爆炸,Embedding层的过⼤梯度,Post-LN、Pre-LN和Sandwich-LN的不稳定性,DataLoader状态种⼦恢复,以及Softmax和Attention的计算精度选择…… p⼯程难题:不同架构集群上⾼效训练千亿模型是极⼤的挑战 p海光集群、A100集群、神威超算、昇腾910集群p频繁的随机硬件故障、Megatron-DeepSpeed中的3D流⽔线平衡调试、CUDAkernel效率调优、训练显存紧张、数万进程TCP初始化、Element-wise算⼦融合 新型⼤模型:GLM̶⾃回归填空 自然语言:生成,还是理解? n自回归模型GPT:单向注意力,擅长长文本生成n自编码模型BERT:双向注意力,擅长文本理解n编码器-解码器模型T5:编解码,对话任务 并⾏策略:⾼效训练千亿模型 p测试集群配置: pA100集群(A100):96台DGX-A100,每台2张200GBIB⽹卡p海光GPU(Hygon):3000台机器,每台4张DCU加速卡、4张50GIB⽹卡p申威处理器(Sunway):8192个节点,每节点⼀块SW26010-PRO处理器硬件差异性⼤ p训练GPT-3 175B规模的模型,按照相同的300B单词量估计训练时间: ⼤模型训练最⼤挑战:训练稳定性 p权衡利弊:训练稳定性(⾼精度低效)还是训练效率(低精度⾼效) pOPT-175B:训练崩溃时反复调整学习率,跳过数据(权宜之计,损失性能)pBLOOM 176B:embedding norm和BF16(损失性能,有限适配平台) GLM-130B:稳定训练⽅法 pAttention score层:Softmax in 32 避免上下溢出!!!⇥↵! <latexit sha1_base64="xd32kgbSheCDoMnbGsfzKeliFHY=">AAADznicrVPNa9swFFfsbuuyr7Q77iIaBt1hwW5Lt0uhbFAGvaSwtIUoC7IsJ6Ky5UrPpZkQu+7v6233/SGTU3d0Sdmg7IF4P73v30NKSikMRNGPVhCuPHj4aPVx+8nTZ89fdNbWj42qNOMDpqTSpwk1XIqCD0CA5Kel5jRPJD9Jzj7W/pMLro1QxWeYlXyU00khMsEoeNN4rfUTY0xUyTUFpQuac2tUBjm9dETyDDZJpimzJFEyNbPcK3vkxuL2/dDfv1gCqnTOEnOuwabOES0mU3iD9/C/GtyrDZXllP5uht9i4iv+j1LN3DcKRM5NE9IwwnvtJUoH/Xj3hs/fuC4kbW/dc8t3z7w8bKPGnW7Ui+aCl0HcgC5qpD/uXJFUsSrnBTBJjRnGUQkjSzUIJrlrk8rwkrIzOuFDD2s6ZmTnz9Hh196S4kxpfwrAc+vtDEtzU7PykTmFqVn01ca7fMMKsvcjK4qyAl6w60ZZJTEoXL9tnArNGciZB5Rp4WfFbEr9ZsH/gLZfQrxIeRkcb/Xi3d7O0U53/0OzjlX0Cm2gTRSjd2gffUJ9NEAsOAzOg6+BDfvhRejCb9ehQavJeYn+kPD7L8emTUY=</latexit>softmaxQiK>ipd= softmaxQiK>i↵pdmaxQiK>i↵pd= FP16softmax FP32QiK>i↵pd!⇥↵!! p调⼩ Embedding层梯度,缓解前期梯度爆炸问题 word_embedding = word_embedding * alpha + \word_embedding .detach() * (1 ‒ alpha) GLM-130B:让每个⼈都能⽤上千亿模型 p降低门槛:运⾏BLOOM/OPT⾄少需要⼀台DGX-A100(8*80G)p在保留中间计算结果为FP16的情况下,将GLM-130B的权重进⾏量化 pVector-wise对称PTQ量化⽅案pINT8下⼏乎不损失结果、INT4下只有极⼩的损失 GLM-130B:开源模型代码,免费下载(https://github.com/THUDM/GLM-130B) p双语:同时⽀持中⽂和英⽂ p⾼精度(英⽂):在LAMBADA上优于GPT-3 175B(+4.0%)、OPT-175B(+5.5%)和BLOOM-176B(+13.0%),在MMLU上略优于GPT-3 175B(+0.9%)p⾼精度(中⽂):在7个零样本CLUE数据集(+24.26%)和5个零样本FewCLUE数据集(+12.75%)上明显优于ERNIE Titan 3.0 260Bp⾼效推理:⽀持⽤⼀台A100 (8 * 40G)/V100 (8 * 32G)服务器基于FasterTransformer进⾏快速推理(相⽐Megatron提速最⾼可达2.5倍)p低门槛推理:最低量化⾄INT4,允许在4张3090/ 8张2080Ti上完成推理p跨平台:⽀持在NVIDIA、海光DCU、昇腾910和神威处理器上的训练 How does this happen? 本质理论 静态表⽰学习 •“You shall know a word by the company it keeps.”—John Rupert Firth •Learn static word representation Applev.s. Apple? Transformer的动态表⽰能⼒ •Dynamic representation•Large Key-Value Networks can substitute Large FFNs in transformers ⼤模型带来的in-context能⼒ •In-context Learnin