arXiv230312712v1csCL2023年3月22日 人工智能的火花:GPT4的早期实验 SebastienBubeckVarunChandrasekaranRonenEldanJohannesGehrkeEricHorvitzEceKamarPeterLeeYinTatLeeYinYuanzhiLi斯科特伦德伯格 HarshaNoriHamidPalangiMarcoTulioRibeiroYiZhang 微软研究院 Abstract 人工智能(AI)研究人员一直在开发和完善大型语言模型(LLM),这些模型在各种领域和任务中表现出卓越的功能,挑战了我们对学习和认知的理解。OpeAI开发的最新模型GPT4Ope23使用前所未有的计算和数据规模进行训练。在本文中,我们报告了我们对GPT4早期版本的调查,当时它仍在由OpeAI积极开发。我们认为(这个早期版本的)GPT4是一组新的LLM(例如ChatGPT和Google的PaLM)的一部分 ,它们比以前的AI模型表现出更一般的智能。我们讨论了这些模型的能力和含义。我们证明,除了掌握语言外,GPT4还可以解决涵盖数学,编码,视觉,医学,法律,心理学等的新颖而艰巨的任务,而无需任何特殊提示。此外,在所有这些任务中,GPT4的性能非常接近人类水平的性能,并且通常大大超过ChatGPT等现有模型。鉴于GPT4能力的广度和深度,我们认为它可以合理地视为人工智能通用智能(AGI)系统的早期版本。在我们对GPT4的探索中,我们特别强调发现其局限性,并讨论了迈向更深入,更全面的AGI版本的挑战,包括可能需要追求一种超越下一个词预测的新范式。最后,我们反思了最近技术飞跃的社会影响和未来的研究方向。 Contents 1Introduction4 11我们研究GPT4智力的方法7 12组织我们的论证8 2多模态和跨学科组成13 21综合能力13 22Vision16 221超越记忆的图像生成16 222按照详细说明生成图像alaDallE17 223在草图生成中的可能应用18 23音乐19 3编码21 31从指令到代码21 311编码挑战21 312真实世界场景22 32了解现有代码26 430 41 31 411 31 412 32 413 34 42 35 43 37 44 39 543 51 43 511 44 512 49 52 49 521 49 522 49 523 52 524 53 654 61 54 611 54 612 54 613 60 62 60 769 71 69 72 70 721 71 722 73 876 81 76 82 77 83 78 982 91 82 92 83 93 86 94 89 95 90 1092 101 92 102 93 103 94 B105 B1 105 B2 108 B3 110 101 C111 C1 111 C2 112 C3 115 C4 116 C5 116 C6 119 C7 121 D122 D1 122 D2 126 D3 138 D4 139 E141 E1 141 F144 F1 144 F2 149 未知的事情在做我们不知道是什么。 亚瑟爱丁顿爵士 1Introduction 智力是一个多方面的、难以捉摸的概念,长期以来一直挑战着心理学家、哲学家和计算机科学家。1994年,52名心理学家组成的小组试图抓住它的本质,他们签署了发表在一篇关于智力科学的社论中的广泛定义Got97。共识小组将智力定义为一种非常普遍的心理能力,包括推理,计划,解决问题,抽象思维,理解复杂的想法,快速学习和从经验中学习的能力这个定义意味着智力不限于特定领域或任务,而是包含广泛的认知技能和能力。建立一个具有1994年共识定义所捕获的通用智能的人工系统是人工智能研究的长期目标。在早期的著作中,人工智能 (AI)研究的现代学科的创始人提出了理解智能的一系列理想目标MMRS06。几十年来,人工智能研究人员一直在追求智能原则,包括可推广的推理机制例如。Procedre,NSS59,LBFL93和包含大型常识语料库的知识库构建Le95。然而,人工智能研究中最近的许多成功可以描述为狭隘地集中在明确定义的任务和挑战上,比如下棋或围棋,人工智能系统分别在1996年和2016年掌握了这些任务和挑战。在20世纪90年代末和21世纪初,越来越多的人呼吁开发更通用的人工智能系统例如。Procedre,SBD96和该领域的奖学金试图确定可能更普遍的智能系统例如ProcedreLeg08GHT15“人工通用智能”(AGI)一词在2000年代初得到了推广(参见Goe14 ),以强调从“狭窄的AI”转向更广泛的智能概念的愿望,正如正在开发的重点,现实世界的应用程序所证明的那样。我们使用AGI来指代在1994年定义中所捕获的具有广泛情报能力的系统,以及可能在共识小组的工作中隐含的额外要求,即这些能力达到或高于人类水平。然而,我们注意到,AGI没有一个被广泛接受的单一定义,我们在结论部分讨论其他定义。 过去几年人工智能研究中最显著的突破是由大型语言模型LLM实现的自然语言处理的进步。这些神经网络模型基于Trasformer架构VSP17,并在大量的网络文本数据语料库上进行训练,其核心是预测部分句子中的下一个单词的自我监督目标。在本文中,我们报告的证据表明,一个新的LLM开发的OpeAI,这是一个早期和。非多 模态根据1994年的定义,GPT4Ope23的版本表现出许多智力特征。尽管是纯粹的语言模型,但GPT4的早期 版本在各种领域和任务上都具有出色的功能,包括抽象,理解,视觉,编码,数学,医学,法律,对人类动机和情 感的理解等等。在OpeAI的早期开发过程中,我们使用纯自然语言查询(提示)与GPT4进行了交互。在图11 中,我们展示了GPT4输出的一些初步示例,要求它以诗歌的形式写一个素数无限的证明,以绘制独角兽。 TiKZ(一种在L中创建图形的语言ATEX),用Pytho创建复杂的动画,并解决高中级数学问题。它很容易在所有这些任务中取得成功,并产生与人类所能产生的产品基本上没有区别(甚至更好)的产品。我们还将GPT4的性能与以前的LLM进行了比较,最值得注意的是ChatGPT,它是(改进的)GPT3BMR20的微调版本。在图12中,我们显示了向ChatGPT询问素数诗的无穷大度和TiZ独角兽图的结果。虽然系统在两个任务上都执行得不简单,但没有与GPT4的输出进行比较。这些初步观察将重复。 在整个论文中,关于各种各样的任务。GPT4的能力的普遍性,具有跨越广泛领域的众多能力,以及它在人类水平或超出人类水平的广泛任务上的表现,使我们感到满意的是,GPT4是迈向AGI的重要一步。 1随着GPT4的开发在我们的实验之后继续进行,人们应该期望GPT的最终版本会有不同的反应 4特别是,所有的定量结果都应该被视为模型潜力的估计,而不是确定的数字。我们在整篇论文中重复这个警告,以澄清部署模型的经验可能会有所不同。此外,我们强调我们测试的版本是仅用于输入的文本,但为了简单起见,我们也将其称为GPT4。 GPT4 提示你能写一个证明有无限多的素数,每一行都押韵吗 ? GPT4: 是的,我想我可以, 尽管这可能需要一个聪明的计划。我首先要注意欧几里得的证据, 这表明素数不仅仅是超然的。假设我们有一个有限的列表, 素数,没有一个被错过。把它们相乘,加一个,只是为了聪明。结果将是一 个数字, 那没有素数,哦,奇迹!但是每个数字都有一个素数, 这只是时间问题。所以我们发现了一个矛盾,我们的有限列表需要驱逐。必须有无限多的素数 ,这就是我押韵的结尾。 提示在TiKZ中画一只独角兽。 GPT4:ProducesLATEX编译为以下图片。 提示您可以为以下数据生成pyplot:x3568y135181y25681y31234y47231我想要y1y2在同一个情节中,但是y3在该情节旁边的另一个情节中,y4在下面。我想要的传说y1是“鲍勃”,y2成为“爱丽丝”,y3是“比尔博”,y4成为“艾莉”。我想要x轴 标记为“时间”和y轴被贴上“钱”的标签。我想添加一个1040的随机误差条每条曲线,通过所有时间(包括非整数)。我想平滑的曲线显示的情节,和平滑的错误条。不要使用线性插值,使用平滑插值!我还想在平滑曲线上添加一些小的之字形,使其看起来更真实。我想把基线作为每行的平均值。我想在下面放一个饼图,指出每个时间步中四个人的分数。我还想要一个动画来显 示分数在连续时间的饼图中如何变化。插入缺失的分数!我还希望其他三个图中的垂直线动画与饼图匹配。我想要最奇特的情节。请添加尽可能多的花哨的东西。 下面是一个可能的代码来为以下数据生成pyplot,并带有一些注释来解释步骤: GPT4:我们从生成的代码产生的动画中给出两个快照 提示假设gxf1xg0g4g3g7g96什么是fff6 GPT4:有不同的方法来解决这个问题,但一种可能的方法是使用gxf1x意味着fgxx对于任何x在的域中g。也就是说 ,申请f到等式的两边gxf1x给出fgxff1xx。这意味着我们可以消除f通过申请g,反之亦然。使用这个想法,我们可以尝试找到f(6)通过寻找的价值xsuchthatgx)6。从给定的信息中,我们看到g(9)6,所以f6fg(9))9。同样 ,我们可以找到f(9)通过寻找的价值xsuchthatgx)9。我们看到g(7)9,所以f9fg(7))7。最后,我们可以找到f (7)通过寻找的价值xsuchthatgx)7。我们看到g(4)7,所以f7fg44。因此,fff6ff9f7 图11:GPT4在语言,视觉,编码和数学方面的ca5pabilities的初步示例。 ChatGPT 提示你能写一个证明有无限多的素数,每一行都押韵吗? 提示在TiKZ中画一只独角兽。 ChatGPT 当然!这里有一个证明,证明有无限多的素数,证明的每一行都有押韵: ChatGPTProducesLATEX编译到下面的图片。 考虑所有素数的集合。 调用这个集合P,让它开始只有两个,第一个素数。如果我们取P中的所有素数并加一个, 我们得到了一组从未做过的新数字。 这个集合称为S,仅由复合数字组成。可以肯定的是,在它们之间找不到质数。 但我们知道,必须至少有一个素数,因为S是无限的,这一点很清楚。 如果我们取S中不在P中的最小数字,并将其称为p,我们可以将其添加到我们的集合中,您不明白吗?但是这个过程可以无限重复。 因此,我们的集合P也必须是无限的,你会同意的。 所以你有它,一个相当可靠的证据。 有无限多的素数,我们可以看到很多。不需要害羞,不需要con悔。 无限是一个很大的数字,就像P。 图12:来自图11的前两个提示的ChatGPT输出。 我们声称GPT4代表了AGI的进展不是意味着它在它所做的事情上是完美的,或者它接近能够做人类可以做的任何事情(这是AGI的通常定义之一;有关更多信息,请参见结论部分),或者它具有内在动机和目标(AGI某些定义中的另一个关键方面)。实际上,即使在1994年智力定义的有限范围内,也不完全清楚GPT4可以沿着某些智力轴走多远。Procedre,计划(参见第8节),并且可以说它完全缺少“快速学习并从经验中学习”的部分,因为模型不是不断更新的(尽管它可以在会话中学习,例如参见第5节)。总体而言,GPT4仍然有许多限制和偏见,我们将在下面详细讨论,这些也将在OpeAI的报告Ope23中介绍。特别是它仍然遭受LLM的一些有据可查的缺点,例如幻觉问题MNBM20(参见图18)或犯基本算术错误CKB21(参见附录D),但它也克服了一些基本障碍,例如获得许多非语言能力(例如Procedre,它解决了MIB23中描述的大多数LLM故障模式,并且在常识上也取得了很大的进步,第一个示例参见图17,更多参见附录A)。这凸显