您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:通用人工智能的火花:GPT-4的早期实验 - 发现报告
当前位置:首页/其他报告/报告详情/

通用人工智能的火花:GPT-4的早期实验

2023-03-15-未知机构意***
通用人工智能的火花:GPT-4的早期实验

arXiv:2303.12712v1[cs。CL)2023年3月22日 通用人工智能的火花:GPT-4的早期实验 年代´ebastienBubeckVarunChandrasekaranRonen什约翰内斯·格尔克埃里克·霍维茨埃斯·卡马尔彼得·李银达李远志李斯科特Lundberg 哈沙海里哈米德帕兰吉马可·图里奥里贝罗张毅微软研究院 摘要 人工智能(AI)研究人员一直在开发和完善大型语言模型(LLM),这些模型在各种领域和任务中表现出非凡的能力,挑战我们对学习和认知的理解。OpenAI开发的最新模型GPT-4[Ope23]使用前所未有的计算和数据规模进行了训练。在本文中,我们报告了我们对GPT-4早期版本的调查,当时OpenAI仍在积极开发中。我们认为(这个早期版本)GPT-4是新的LLM队列的一部分(例如ChatGPT和Google的PaLM),它们表现出比以前的AI模型更多的通用智能。我们将讨论这些模型不断增强的功能和影响。我们证明,除了掌握语言之外,GPT-4还可以解决跨越数学、编码、视觉、医学、法律、心理学等的新颖而困难的任务,而无需任何特殊提示 。此外,在所有这些任务中,GPT-4的性能惊人地接近人类水平的性能,并且经常大大超过ChatGPT等以前的模型。鉴于GPT-4功能的广度和深度,我们认为它可以合理地被视为通用人工智能(AGI)系统的早期(但仍然不完整)版本。在探索GPT-4时,我们特别强调发现其局限性,并讨论了迈向更深入、更全面的AGI版本所面临的挑战,包括可能需要追求超越下一个词预测的新范式。最后,我们反思了近期技术飞跃的社会影响和未来的研究方向。 内容 1介绍4 1.1我们研究GPT-4智力的方法.7 1.2我们的示威活动的组织.8 2多通道和跨学科的成分13 2.1综合能力13 2.2愿景16 2.2.1图像生成超越记忆16 2.2.2按照详细说明生成图像('laDall-E)17 2.2.3可能在草图生成中的应用18 2.3音乐19 3编码21 3.1从指令代码21 3.1.1编码的挑战21 3.1.2真实世界的场景22 3.2理解现有的代码26 430 4.1 31 4.1.1 31 4.1.2 32 4.1.3 34 4.2 35 4.3 37 4.4 39 543 5.1 43 5.1.1 44 5.1.2 49 5.2 49 5.2.1 49 5.2.2 49 5.2.3 52 5.2.4 53 654 6.1 54 6.1.1 54 6.1.2 54 6.1.3 60 6.2 60 769 7.1 69 7.2 70 7.2.1 71 7.2.2 73 876 8.1 76 8.2 77 8.3 78 982 9.1 82 9.2 83 9.3 86 9.4 89 9.5 90 1092 10.1 92 10.2 93 10.3 94 B105 B.1 105 B.2 108 B.3 110 101 C111 C.1 111 C.2 112 C.3 115 C.4 116 C.5 116 C.6 119 C.7 121 D122 D.1 122 D.2 126 D.3 138 D.4 139 E141 E.1 141 F144 F.1 144 F.2 149 未知的东西我们不知道。 ——亚瑟·爱丁顿爵士 1介绍 智力是一个多方面且难以捉摸的概念,长期以来一直挑战着心理学家、哲学家和计算机科学家。1994年,一个由52名心理学家组成的小组试图抓住它的本质,他们签署了一篇发表在一篇关于智力科学的社论[Got97]上的宽泛定义。共识小组将智能定义为一种非常普遍的心理能力,除其他外,包括推理、计划、解决问题、抽象思考、理解复杂想法、快速学习和从经验中学习的能力.这个定义意味着智力不仅限于特定的领域或任务,而是包括广泛的认知技能和能力。建立一个展示1994年共识定义所捕获的那种通用智能的人工系统是人工智能研究的一个长期而雄心勃勃的目标。在早期的著作中,现代人工智能(AI)研究学科的创始人提出了理解智能的一系列理想目标[MMRS06]。几十年来,人工智能研究人员一直在追求智能原理,包括可推广的推理机制(例如,[NSS59],[LBFL93])和构建包含大量常识知识语料库的知识库[Len95]。然而,人工智能研究的许多最新成功可以被描述为狭隘地专注于定义明确的任务和挑战,例如下棋或围棋,这些分别在1996年和2016年被人工智能系统掌握。在1990年代后期和2000年代,越来越多的人呼吁开发更通用的人工智能系统(例如,[SBD+96]),该领域的学者试图确定可能成为更普遍智能系统的基础的原则(例如,[Leg08,GHT15])。“通用人工智能”(AGI)一词在2000年代初普及(见[Goe14]),以强调从“狭义人工智能”(如正在开发的重点、现实世界应用所证明的那样)转向更广泛的智能概念的愿望,这可以追溯到早期人工智能研究的长期愿望和梦想。我们使用AGI来指代在上述1994年定义中表现出广泛智能能力的系统 ,以及可能隐含在共识小组工作中的额外要求,即这些能力达到或高于人类水平。然而,我们注意到AGI没有被广泛接受的单一定义,我们在结论部分讨论了其他定义。 过去几年人工智能研究最显着的突破是通过大型语言模型(LLM)实现的自然语言处理的进步。这些神经网络模型基于Transformer架构[VSP+17],并在大量Web文本数据语料库上进行训练,其核心使用自我监督目标来预测部分句子中的下一个单词。在本文中,我们报告了OpenAI开发的新LLM的证据,这是一个早期的和non-multimodal根据4年的定义,GPT-4[Ope23]的版本表现出许多智力特征。尽管纯粹是一种语言模型,但GPT-4的早期版本在各种领域和任务上表现出非凡的能力,包括抽象、理解、视觉、编码、数学、医学、法律、对人类动机和情感的理解等等。在OpenAI的早期开发过程中,我们使用纯自然语言查询(提示)1与GPT-4进行了交互。在图1.1中,我们展示了GPT-4输出的一些初步示例,要求它以诗的形式编写素数无穷大的证明,以绘制独角兽TiKZ(一种用于在L中创建图形的语言)一个TEX),用Python创建复杂的动画,并解决高中水平的数学问题。它很容易在所有这些任务中取得成功,并产生与人类所能产生的基本上没有区别(甚至更好)的输出。我们还将GPT-4的性能与以前的LLM进行了比较,最著名的是ChatGPT,它是GPT-3[BMR+20]的微调版本。在图1.2中,我们显示了向ChatGPT询问素数诗的无限和TikZ独角兽绘图的结果。虽然系统在这两项任务上都执行了非平凡,但与GPT-4的输出没有可比性。这些初步意见将重复 在整篇论文中,关于各种各样的任务。GPT-4能力的普遍性(跨越广泛领域的众多能力)及其在人类水平或超出人类水平的广泛任务中的性能相结合,使我们可以放心地说GPT-4是迈向AGI的重要一步。 1随着GPT-4的开发在我们的实验之后继续进行,人们应该期待与GPT的最终版本不同的反应 4.特别是,所有定量结果都应被视为对模型潜力的估计,而不是确定的数字。我们在整篇论文中重复了这一警告,以澄清部署模型的体验可能会有所不同。此外,我们强调我们测试的版本是纯文本的输入,但为了简单起见,我们也将其称为GPT-4。 GPT-4 提示:你能写一个证明有无限多个素数的证明,每一行都押韵吗? GPT-4: 是的,我想我可以, 虽然这可能需要一个聪明的计划。我首先要注意欧几里得的证明, 这表明素数不仅仅是冷漠的。假设我们有一个有限列表, 素数,没有一个被遗漏。将它们相乘,并添加一个,只是为了聪明。结果将是一个数字, 这没有质因数,哦,奇迹!但是每个数字都有一个素数, 这就分开了,只是时间问题。所以我们发现了一个矛盾, 我们的有限清单需要驱逐。一定有无限多个素数 ,这就是我押韵台词的结尾。 提示:在TiKZ画一个独角兽。 GPT-4:(生产L一个特克斯编译后图片。) 提示:您能否为以下数据生成pyplot:x=,3,5,6,8]y1,3,5,18,1]y2,5,6,8,1]y3,1,2,3,4]y4,7,2,3,1].我想要的y1y2在相同的情节,但是y3是在另一个阴谋, 阴谋,旁边y4在下面。我想要的传说y1“bob”,y2“爱丽丝”,y3“比尔博”,y4“艾莉”。我想要的x设在被标以“时间”y轴要标记为“钱”。我想在所 有时间(包括非整数)向每条曲线添加一个10%-40%的随机误差线。我想要平滑的曲线来显示图,以及平滑的误差线。不要使用线性插值,使用平滑插值!我还想在平滑曲线中添加一些小的锯齿形,使其看起来更真实。我想把基线作为每条线的平均值。我想在下面放一个饼图,指示每个时间步中四个人的比例。我还想要一个动画来显示分数在**连续时间**中如何在饼图中变化。插值缺失的分数!我还希望其他三个图中的垂直线动画与饼图相匹配。我想要最奇特的情节。请添加尽可能多的花哨的东西。 下面是为以下数据生成pyplot的可能代码,并提供一些注释来解释这些步骤: GPT-4:[我们从生成的代码生成的动画中给出两个快照] 提示:假设g(x)f−1(x)g(0)g(4)g(3)g(7)g(9)=6是什么f(f(f(6)))? GPT-4:有不同的方法可以解决此问题,但一种可能的方法是使用以下事实g(x)f−1(x)意味着f(g(x))x对于任何x域的g。也就是说,应用f方程两边g(x)f−1(x)给f(g(x))f(f−1(x))x。这意味着我们可以撤销的效果f通过应用g,反之亦然。使用这个想法,我们可以尝试找到f(6)通过寻找的价值x这样g(x)=6。从给定的信息,我们看到g(9)=6f(6)=f(g(9))=9。同样,我们可以找到f(9)通过寻找的价值x这样g(x)=9。我们可以看到,g(7)=9f(9)f(g(7))=7。最后,我们可以找到f(7)通过寻找的价值x这样g(x)=7。我们可以看到,g(4)=7,所以f(7)f(g(4))=4 。因此,f(f(f(6)))f(f(9))f(7) 图1.1:GPT-4在语言、视觉、编码和数学方面的ca5pability的初步示例。 ChatGPT 提示:你能写一个证明有无限多个素数的证明,每一行都押韵吗? 提示:在TiKZ画一个独角兽。 ChatGPT: 确定!这是一个证明有无限多个素数的证明,证明的每一行都押韵: ChatGPT:(生产L一个特克斯编译以下图片。) 考虑所有质数的集合。 称这个集合为P,让它从两个开始,第一个素数。如果我们把所有的素数P和添加一个, 我们得到了一组从未做过的新数字。 这个集合,称为S,仅由合数组成。其中不会找到素数,这是肯定的。 但我们知道必须至少有一个素数,因为S是无限的,这一点很清楚。 如果我们取S中不在P中的最小数,并称它为p,我们可以将其添加到我们的集合中,你不明白吗?但这个过程可以无限期地重复。 因此,我们的集合P也必须是无限的,你会同意的。 现在你明白了吧,一个很坚实的证明。 有无限多的素数,我们可以看到很多。不需要腼腆,不需要懊悔。 无穷是一个巨大的数字,就像P。 图1.2..图1.1中前两个提示的ChatGPT输出。 我们声称GPT-4代表了AGI的进展,确实如此不意味着它在所做的事情上是完美的,或者它接近能够做人类可以做的任何事情(这是AGI的通常定义之一;有关此的更多信息,请参阅结论部分),或者它具有内在动机和目标(AGI某些定义中的另一个关键方面)。事实上,即使在1994年智能定义的有限背景下,GPT-4在其中一些智能轴上能走多远,例如计划(见第8节),可以说它完全缺少“快速学习并从经验中学习”的部分,因为模型没有不断更新 (尽管它可以在会话中学习,例如,请参阅第5节)。总体而言,GPT-4仍然存在许多限制和偏见,我们将在下面详细讨论,OpenAI