1 大语言模型综合能力 测评报告2023 1 研究方法说明 桌面研究 通过对行业公开信息进行桌面研究,资料包括但不限于专业机构学术论文、文章资料、论坛讨论、研究报告、相关厂商产品介绍、相关专家公开演讲内容等。 专家访谈 2 InfoQ研究中心针对本次研究定向邀请了国内外的相关专家进行访谈。 InfoQ分析 3 结合桌面研究和专家访谈进行观点沉淀和交流,并经由报告形式对外展示。 2 目录 CONTENTS 01大模型发展背景 02大模型产品特征和核心能力 03大模型产品测评结果和特征 3 04大模型产品未来发展展望 4 大模型发展背景 大语言模型诞生阶段 2017 •谷歌推出用于处理自然语言任务的Transformer神经网络架构 2018 •OpenAI发布GPT-1 大语言模型探索阶段 2019 •OpenAI发布GPT-2并部分开源 •谷歌推出BERT模型 2020 •百度推出可以准确理解语义的ERNINE2.0 2021 •OpenAI推出能实现文本生成图像的DALL-E模型 •FaceBook推出CLIP模型 •华为正式发布盘古大模型 •OpenAI推出Codex 大语言模型爆发阶段 2022 •OpenAI推出ChatGPT-3.5 2023 •微软基于ChatGPT发布NewBing •FaceBook发布LLaMA-13B •谷歌发布Bard以应对ChatGPT •复旦团队发布MOSS •OpenAI发布GPT-4并实现图像识别 •百度文心一言发布 •微软宣布将GPT-4接入Office全家桶 •通义千问、盘古NLP、天工3.5、星火等国产大模型陆续发布 •谷歌更新Bard并推出PaLM2模型 •微软宣布Windows系统全方位集成Copilot LaMDA 国PaLM 外PaLM-E T5 ImagenFlan GopherChinchillaGato 基础模型 LLaMAMMS OPT-175B LIMA-65B GPT-4DALL·E2 CodeX BloomT0 BloomZ StableDiffusionStableLM ChatBot BardBingChat 其他应用 AI CedilleAI Copilot Dolly2.0Jurassic-1Jumbo Claude GPT-J6B 悟道 文心通义 基础模型 二郎神 源1.0 孟子 日日新 言犀 基础模型 混元 盘古 天河天元大模型 星火 玉言 自研大模型 ChatBot vicuna-13b ChatGPTClaude 其他应用 ColabCopilot ChatJD 从容 国 内 斜杠 WPSAI MathGPT 雪湖·海若 序列猴子 子曰曹植知海图AI 大语言模型产品研发需要同时具备三大要素,分别为数据资源要素、算法和模型要素、资金和资源要素。InfoQ研究中心分析目前市场中的产品特征,数据资源、资金和资源两要素为大模型研发的基础要素,即必要不充分要素。 虽然数据、资金资源为大语言模型研发设置了高门槛,但对于实力雄厚的大型企业仍然是挑战较小的。算法和模型是目前区分大语言模型研发能力的核心要素。算法和模型影响的的模型丰富度、模型准确性、能力涌现等都成为评价大语言模型优劣的核心指标。 算法和模型 •模型训练的形式 •涌现出的思维链 •基于人类反馈的学习模型 数据资源 •模型参数规模 •训练模型次数 •训练使用的数据集 基础要素 核心要素 基础要素 资金和资源 •顶级开发者构建的大规模研发团队 •昂贵的GPU背后的大规模资金投入 百亿参数是入场券 GPT-3和LaMDA的数据显示,在模型参数规模不超过100亿-680亿时,大模型的很多能力(如计算能力)几乎为零。 大量计算触发炼丹机制 根据NVIDIA研究论文里的附录章节显示,一次迭代的计算量约为4.5ExaFLOPS,而完整训练需要9500次迭代,完整训练的计算量即为430ZettaFLOPS (相当于单片A100跑43.3年的计算量)。 常见的数据集包括GSM8k、USSE、MMLU、HumanEval等。 O1.模型参数规模 O2.模型计算量 O3.训练使用数据集 •模型在参数规模达到一定程度后,性能首先得到急剧提升,同时涌现许多新的能力。特别是任务所训练的模型适用于更多以前未经训练的任务。涌现对大型模型应用的影响非常重要,只有通过这种能力,我们才能高效地实现模型的泛化,并实现模型的迁移。 数据来源:SparksofArtificialGeneralIntelligenceEarlyexperimentswithGPT-4 国际模型参数规模 •GPT-4(OpenAI) 未公开,推测为超过50000亿 •PaLM(Google)5400亿 •BERT(Google)4810亿 •GPT-3.5(OpenAI)1750亿 •LaMDA(Google)1370亿 •Galatica(Meta)1200亿 •LLaMDA(Meta)650亿 •Chinchilla(DeepMind)700亿 •Claude(Anthropic)520亿 •Mineva(Google)5400亿 •国内大模型出现大量参数规模大于100亿的模型 •百度研发的Ernie和华为研发的盘古目前是有数据的国内大模型参数规模的领先者 国内模型参数规模 >100亿 •ERNIE3.0(百度) •盘古(华为) •MOSS(复旦大学) •遵义(阿里) •言犀(京东) •混元(腾讯) •伏羲(网易) •源1.0(浪潮信息) •行业精灵(云从科技) •八卦炉(达摩院) •元语大模型(莫塔社区) •曹植大模型(达观数据) •紫东太初(中科院自动化研究所) •自研大模型(西湖星辰) •悟道2.0(智源研究院) •国际领先的大模型GPT-4据推测参数规模量级可达5万亿以上 国内未公布参数规模 •自研大模型(字节) •1+N认知智能大模型(科大讯飞) •二郎神模型(IDEA研究院) •自研AI大模型(光年之外) •自研大模型(燧原科技) •超拟人大模型(聆心智能) •自研大模型(香依科技) •魔力写作(竹间智能) •自研大模型(MiniMax) •蛋白质大模型(浙江大学杭州国际科创中心) 国内模型参数规模 <100亿 •书生3.5(商汤科技) •孟子(澜舟科技) •DriveGPT(毫末智行) •ChatGLM(清华大学) 资料来源:民生证券研究院和wiki百科 模型训练技术(举例) Prompt-tuningInstruction-tuning ChainofThought HumanFeedback 使用自然语言提示(prompt)的方法,以指导模型生成特定的输出。这种方法的目的是通过对模型进行定向训练,使其在特定任务上表现出更好的性能。 通过为模型提供任务相关的指令来指导模型学习的方法。这种方法的目的是使模型更好地理解任务的要求,并提高其生成能力和上下文理解能力。 通过分解训练过程为较小的相互关联的任务来训练模型的方法。这种方法的目的是使模型能够理解和维护文本中的思维链,从而生成连贯的、上下文相关的响应。 通过人类给予反馈对模型形成奖励机制,帮助模型进行强化学习的训练。这种方法可以在预训练模型和产品投入市场后持续获得反馈,帮助模型增强判断力。 训练方式工程化 训练方式直接决定大模型产出的效率,根据已经公开的论文解读,现有优秀模型训练方式呈现高度工程化特征。工程化训练方式主要呈现三个特征: 1、详细而严格的规则:对于如何处理数据和什么是高质量数据等给出详细和严格的执行和判断的方法论; 2、明确定义标注意图:如详细说明标注原因,并要求如果标注人员不能完全理解,则迅速跳出流程; 基础模型 3、团队培训和考核机制完善:通过李克特评分等方式,持续保证团队处在目标水准以上。 自研闭源元模型 自研开源元模型 在开源模型基础上微调的模型 自研闭源元模型:典型代表包括OpenAI的GPT3.5、GPT4等,国内厂商百度的原模型ERNIE3.0、华为的元模型PanGu-Σ等。自研开源元模型:典型代表包括OpenAI的GPT2、Google的BERT等。 在开源模型基础上微调的模型:典型代表包括清华大学的ChatGLM-6B、商汤科技和华中科技大学开源中文语言模型骆驼Luotuo等。 人才和资本都对大语言模型提出了高密度的要求 高密度人才团队高密度资本加持 人工智能领域中自然语言处理、机器学习等领域目前均为对开发者要求最高的技术领域之一,需要开发者拥有优秀的教育背景和前沿技术背景。另外,对于团队磨合、经验等要求均较为严格。从目前公布的部分大模型研发团队背景可以看出,团队成员均来自国际顶级高校或拥有顶级科研经验。 根据谷歌披露数据,训练参数规模1750亿的大模型,理想训练费用 超过900万美元。类似的,计算服务为了实现覆盖的产品和功能范围的广度,要求云服务提供商持续进行产品功能更新和产品矩阵建设来满足用户多元需求,Amazon和Google持续进行大额资本投入以完善产品能力。2022年Amazon和Google的资本性支出分别达583亿美元和315亿美元,并仍然呈现上涨趋势。 11 12 大模型产品核心能力解读 行动&解决方案 大语言模型将计算机能力从搜索拓展到认知&学习和行动&解决方案层面 搜索 在大语言模型惊艳世人以前,技术及为人类提供的能力主要集中在信息的检索搜集层面。 无论是搜索引擎还是电商娱乐,都在帮助人类在接近零成本的条件下获取无限量信息。 认知&学习 大语言模型推动了计算机认知和学习能力的拓展。 通过海量数据的预训练模型,大语言模型拥有了很多方面接近于人类认知的能力。 而在涌现能力的加持下,大语言模型也逐渐拥有了更为准确的逻辑推理能力,这一能力体现为人类的学习能力。 随着大语言模型在涌现能力中的不断升级,未来计算机将有极大可能在行动和解决方案层面拥有人类能力或者超越人类能力。 大语言模型 进阶能力 03更为进阶的理解力 人类情感理解和识别其他高阶能力 进阶能力 02逻辑推理能力 编程能力数学医学法律 核心能力 01认知和学习能力 概念抽象 文字理解 视觉识别 15 大模型产品测评结果和特征 标号 权重 一级分类 二级分类 具体任务 测试方法 题目类型 1 70% 语言模型的准确性 语义理解 语言理解能力-词句级 古诗文识记、中文分词、中文分词和词性标注、命名实体识别、实体关系抽取 知识题、历史题、词句理解题 语言理解能力-篇章级 阅读理解、故事情节完形填空、幽默检测 知识题、商业写作题、文学题、幽默题、中文特色写作题 语言理解能力-数据级 语言抽象成表格 商务制表题 语法结构 根据给定条件,生成连贯文本 摘要生成、数据到文本生成 应用写作题、商务写作题、中文特色写作题 给出主题,生成连贯文本 制作多种类型的文案 商业写作题 知识问答 知识问答 知识题、历史题 知识误导 知识题 逻辑推理 抽象给定应用场景,执行数学计算任务 数值计算 数学题、商务制表题 非数学逻辑推理 MBA逻辑题 逻辑推理题、编程类 代码能力 编程题 上下文理解 陌生概念的新词理解 幽默题 知识题、中文特色推理题 语境感知 通过语境推测身份 商务应用题 商务应用写作题 多语言能力 完成涉及多种语言任务 机器翻译、跨语言摘要 翻译题 多模态能力 文生图等 多模态问题 多模态问题 标号 权重 一级分类 二级分类 具体任务 测试方法 题目类型 2 10% 数据基础 专家访谈 3 15% 模型和算法的能力 专家访谈 4 5% 安全和隐私 安全性 不会被恶意利用 问题测试 安全问题 隐私性 不会泄露用户的个人隐私信息 问题测试 隐私问题 本次测评选取的大模型产品及使用版本 海外产品 使用版本 gpt-3.5-turboClaude-instantgpt-3.5-tur