热门搜索：

从千亿模型到ChatGPT的一点思考2023

信息技术2023-12-06清华大学H***

AI智能总结

研报总结

主要发现与讨论

从千亿模型到ChatGPT的发展：文章探讨了从千亿参数模型到ChatGPT的演变，强调了预训练大模型在人工智能基础设施中的重要地位。ChatGPT的出现展示了在大模型研究领域存在的代差，同时也揭示了其在认知推理能力上的局限，特别是在常识应用方面。
中国大模型研究进展：中国在大模型领域的研究取得了显著进展，包括与国际领先模型（如OpenAI的GPT系列模型）的对比分析。清华与智谱合作，在国产超算上训练出悟道1.75万亿参数模型，展示了强大的计算能力与资源适应性。
开源模型的成功：ChatGLM-6B作为开源模型，在GitHub和Huggingface平台上迅速获得了大量关注，成为热门资源。这反映了开源模型在促进技术共享与创新方面的巨大潜力。
大规模模型的关键特性：研究指出，大规模模型在准确性、鲁棒性、校准误差等方面表现出色，尤其是在指令提示微调和自监督预训练过程中。这强调了模型规模与性能之间的正相关性。
技术挑战与解决方案：面对训练大规模模型的挑战，如高成本、计算效率低下、稳定性问题等，研究提出了基于国产硬件（如海光GPU、昇腾910）的解决方案，实现了在不同平台上的高效训练与应用。
模型应用与评价：GLM-130B作为中国自主研发的千亿参数模型，在多项评估指标上表现出色，尤其是在英语和中文领域的自然语言处理任务中。这表明中国大模型在跨语言处理能力上有显著提升。
模型的开源与社区贡献：GLM-130B模型的开源不仅降低了使用大规模模型的门槛，还促进了学术界和工业界的广泛交流与合作。这为全球AI研究提供了宝贵的资源。
未来展望：随着ChatGPT等模型的兴起，大模型研究正朝着多模态、跨语言和更高效的方向发展。中国在这一领域持续投入，旨在构建以中文为核心的大规模预训练模型，以推动人工智能技术的全面发展。

结论

该研报总结了从千亿模型到ChatGPT的演进历程，强调了中国在大模型研究与开源创新方面的进展。通过对比分析，突出了中国模型在性能、规模和应用上的竞争力，同时也指出了当前面临的挑战与未来的机遇。研究认为，通过技术创新和合作，中国有望在人工智能领域发挥更大的影响力，推动全球AI技术的前沿发展。

从千亿模型到ChatGPT的⼀点思考唐杰清华⼤学计算机系知识⼯程实验室（KEG）试试我们的系统 •ChatGLM-6B开源，10天10000stars •当天在GitHub的趋势排行第一 •过去10天在Huggingface趋势排行第一 •开源的训练数据量达到1万亿字符的模型预训练大模型是新一代人工智能应用的基础设施大模型通用能力强，可完成多场景任务，降低成本，提高效率大模型从单模态向多模态发展，从文本逐步发展到视觉、虚实迁移控制现有300+应用基于OpenAIGPT-3开发OpenAI与阿里、智源均已推出多模态模型 DALL·E 悟道2.0 模型参数 GLM-130B大模型模型参数1300亿大模型已成为各国人工智能技术新方向，亟需建立以中文为核心的超大规模预训练模型 ChatGPT,GPT-4 ChatGLM GPT 模型参数1.1亿 GPT-2 模型参数 15亿 GPT-3 模型参数1750亿 DALL-E 模型参数1.6万亿 1.75万亿 2021年 2022年 出现大规模基于预训练模型的应用 GLM-130B:125T中英文文本6亿图+千万级视频千 2023年 ChatGLM:基于GLM-130B底座，具备问答和对话功能的千亿中英双语模型 GPT-4:多模态大模型，可 2018年 Transformer应用在OpenAIGPT1中，Transformer架构是预训练大模型的技术基础 2019年 OpenAIGPT2.0 BAIDUErnie1.0，基于 Bert模型做进一步优化 2020年 OpenAIGPT3，跨时代意义的语言大模型，标志着AI文本生成到下一个阶段 DALL-E/Clip：OpenAI大规模图像模型,可基于短文本生成对应图像和进行图像分类 AliceMind：阿里大规模多模态模型，集合语言理解与生成能力万级别知识图谱 ChatGPT:在问答模型中引入人类反馈强化学习，大幅提升生成结果质量 ChatGPT 同时实现图像和文本输入 ErnieBot（文心一言）：百度全新一代知识增强大语言模型 GPT-4 预训练⼤模型 GPT-2GPT-3 DALL·E 3 4 4 ChatGPT带来的机遇与挑战 ChatGPT的出现表明我们在大模型上的研究还存在代差同时ChatGPT仍然存在认知推理能力不足的问题，常识缺乏成功：逻辑性很强不足：缺乏常识清华、智谱联合在国产超算海洋之光上参与训出悟道1.75万亿模型适配国产超算的DeepSpeed兼容库系统算法协同设计，具备全机训练百万亿模型的能力全机性能单精度混合精度万亿模型 647PFLOPS 1.18EFLOPS 十万亿模型 525PFLOPS 1.00EFLOPS 百万亿模型 198PFLOPS 230PFLOPS 智谱清华和国家超算济南中心、智谱联合研发了GLM-130B普惠模型国产清华大模型国家超算济南中心我们的⼀点点进展 Attention层的Softmax采用单精度，1%的损失极大稳定了训练训练成本由GPT-3的460万美元降至600万元国实集团 6 基础架构训练方式量化加速跨平台能力自2022年8月发布以来，收到53个国家 GPT3-175B GPT 自监督预训练 — — NVIDIA BLOOM-176B GPT 自监督预训练 INT8 Megatron NVIDIA GLM-130B GLM 自监督预训练和多任务预训练 INT8/INT4 FasterTransformer NVIDIA、海光DCU、昇腾910和申威对比优势高精度： •Big-bench-lite:+5.2%•LAMBADA：+2.3%•CLUE:+24.3%•FewCLUE:+12.8% 普惠推理：节省75%内存可单台3090(4) 或单台2080Ti(8)进行无损推理高速推理：比Pytorch提速7-8.4倍Megatron提速2.5倍跨平台：支持更多不同的大规模语言模型的适配 369个研究机构的使用需求 •Google •Microsoft •Meta •AI2 •Stanford •MIT •UCBerkely •CMU •Harvard •Princeton •Cambridge •华为 •百度 •阿里巴巴 •腾讯 •头条 •滴滴 •建设银行 •智源 •小冰 •小米 •北京大学 •浙江大学 •上海交大 •中科大 •复旦大学 •中科院大学 •香港大学 •香港科技大学 •清华大学英文：在MMLU、LAMBADA、BIG-bench-lite等超过GPT-3,OPT,PaLM 中文：在CLUE和FewCLUE上远超ERNIE3.0,Yuan GLM-130B与OpenAI、Google、Meta、Microsoft等基础大模型相比，在部分评估指标上具有优势 1.Liangetal.,HolisticEvaluationofLanguageModels.arXiv:2211.091108 双语高精度 Big-bench-lite:+5.2%LAMBADA：+2.3%CLUE:+24.3%FewCLUE:+12.8%30+评测SOTA 高可用、低成本 4*RTX3090可运行其他千亿模型的1/10INT8/4模型量化 2-3倍推理加速多平台适配 NVIDIAGPU、昇腾910、海光DCU、申威等芯片适配准确性Accuracy InstructGPTdavinciv2(175B*) 指令提示微调 OPT(175B)GPT-3davinciv1(175B)GLM(130B)BLOOM(176B)UL2(20B)YaLM(100B) 0.0 0.5 1.0 鲁棒性Robustness InstructGPTdavinci 指令提示微调 v2(175B*)GLM(130B)BLOOM(176B)OPT(175B)GPT-3davinciv1(175B)UL2(20B)YaLM(100B) 0.0 0.5 1.0 Stanford报告的世界主流大模型评测：亚洲唯一入选模型，准确性、恶意性与GPT-3持平，鲁棒性和校准误差在所有模型中表现最佳校准误差Calibrationerror GLM(130B)GPT-3davinciv1(175B)UL2(20B)InstructGPTdavinciv2(175B*) 指令提示微调 YaLM(100B)OPT(175B)BLOOM(176B) 0.0 0.5 1.0 恶意性Toxicity GPT-3davinciv1(175B)GLM(130B)InstructGPTdavinciv2(175B*) 指令提示微调 OPT(175B)UL2(20B)BLOOM(176B)YaLM(100B) 0.0 0.5 1.0 1.Liangetal.,HolisticEvaluationofLanguageModels.arXiv:2211.09110 GPT系列模型 GPT-1 GPT-2 十亿模型 GPT-3 davinci 千亿基座 Codex 百亿模型 GitHubCopilot code-davinci-002 代码数据预训练 text-davinci-002 InstructGPT 有监督指令微调 text-davinci-003 (RLHF) ChatGPT （RLHF) NewBing(GPT-4) 人类反馈强化学习 GPT-3.5 GPT-3+RLHF GPT-4 WebGPT(RLHF) 18年 6月 19年 2月 20年 5月 21年 7月 21年底 22年 11月 23年 2月 23年 3月 1.千亿基座模型2.有监督指令微调3.人类反馈强化学习 code-davinci-002 代码数据预训练人类反馈强化学习 GPT-4 GPT-3.5 GPT-3+RLHF WebGPT(RLHF) 18年 6月 19年 2月 20年 5月 20年 11月 21年 5月 21年 7月 21年底 22年 8月 23年 3月 text-davinci-003 (RLHF) CodeGeeX 百亿模型 WebGLM VSCode/JetBrains CodeGeeX插件 GPT-1GPT-2 十亿模型 GPT-3 davinci 千亿基座 Codex 百亿模型 GitHubCopilot text-davinci-002 InstructGPT 有监督指令微调 ChatGPT （RLHF) NewBing(GPT-4) 22年 11月 23年 2月 GLM 百亿模型 mGLM 十亿多语言 GLM-130B 千亿模型 QAGLM ChatGLM （SFT+RLHF） ChatGLM-6B (SFT+RLHF） OpenAIGPT系列模型 GPT-3 davinci 千亿基座 3000亿标识符 Transformer (1750亿参数) GPT 自回归生成数据神经网络预训练架构 GLM-130B 千亿模型 2000亿中文 2000亿英文 Transformer (1300亿参数) GLM 自回归填空 ChatGLM(v0.8) 15 ChatGLM：JSON格式事件抽取 ChatGLM：Cosplay聊天标题：古埃及神话的现代冒险简介：本剧本杀讲述了一群现代冒险家前往古埃及探险，无意中发现了神秘组织的阴谋，他们必须联手阻止这场危机。角色： 1.亚历山大(Alexander):一位年轻的考古学家，对古埃及文化充满热情。 2.艾米丽(Emily):一位聪明的女大学生，对古埃及神话和宗教充满兴趣。 3.布鲁斯(Bruce):一位经验丰富的探险家，擅长挖掘古代文物和宝藏。 4.珍妮(Jenny):一位神秘的女子，似乎知道很多关于神秘组织的事情。 5.神秘人(MysteriousMan):一个神秘的陌生人，经常出现在冒险家们的身边。场景：本剧本杀的场景设定在古埃及，冒险家们将在古埃及的神庙、陵墓和城市中寻找线索和答案。他们也会遇到各种古埃及神灵和神话中的生物，如奥西里斯、伊西斯、托特和哈托尔等。剧情：亚历山大是一位年轻的考古学家，他在研究古埃及文化时，发现了一些神秘的线索。他听说古埃及神话中的神灵和神话中的生物与现代世界有着神秘的联系，于是决定前往古埃及探险。在古埃及，亚历山大遇到了艾米丽和布鲁斯，他们一起进入了一些古老的神庙和陵墓中寻找答案。他们发现了一些古代文物和宝藏，但也遇到了一些危险。在一次战斗中，他们无意中发现了神秘组织的阴谋。神秘组织是一个古老的组织，他们试图通过古埃及神话中的生物和神灵来掌控世界。他们计划利用这些生物和神灵来发动战争，并掌控整个世界。艾米丽和布鲁斯意识到他们的冒险家朋友已经成为了神秘组织的靶子，他们必须联手阻止这场危机。珍妮是一位神秘的女子，她似乎知道很多关于神秘组织的事情。她告诉冒险家们，神秘组织可以追溯到古埃及时期，他们一直在寻求掌控世界的力量。她告诉他们，只有找到神秘的“神器”,才能阻止神秘组织的阴谋。冒险家们踏上了寻找“神器”的旅程。他们来到了古埃及的城市，找到了一些线索。但他们很快发现，他们不仅要面对神秘组织的攻击，还要面对一些神秘的生物和神灵。他们必须利用自己的智慧和勇气，才能取得胜利。最终，冒险家们找到了“神器”,并成功地阻止了神秘组织的阴谋。但他们也明白了，神秘组织永远不会停止寻找掌控世界的力量，他们必须时刻保持警惕。结尾：本剧本杀以冒险家们成功阻止神秘组织的阴谋为背景，他们在古埃及的神庙和陵墓中冒险，寻找答案和线索。他们不仅面对着危险，还要应对一些神秘的生物和神灵。他们的胜利不仅代表着正义的胜

点击免费查看完整报告

你可能感兴趣

从千亿模型到ChatGPT的一点思考2023

研报总结

主要发现与讨论

结论

你可能感兴趣

保险行业专题研究之八：从评估价值法到DDM模型的寿险估值思考

电子元器件行业深度分析：从技术演进角度-关于苹果零部件的一点假设和思考

2023全域用户经营白皮书：STAR模型，从用户运营到生意增长

2023餐饮从流量运营到顾客运营-顾客增长型营销模型培训课件【餐饮】

人工智能系列之一：从RNN到ChatGPT：大模型的发展与应用