您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:GPT_4,通用人工智能的火花 - 发现报告
当前位置:首页/行业研究/报告详情/

GPT_4,通用人工智能的火花

信息技术2023-03-23-未知机构天***
AI智能总结
查看更多
GPT_4,通用人工智能的火花

� 《GPT-4,通⽤⼈⼯智能的⽕花》论⽂内容精选与翻译 引⾔: 《通⽤⼈⼯智能的⽕花:GPT-4早期实验》是3⽉最重要的⼀篇论⽂,引起了⼴泛的关注和讨论,但是论⽂⻓达154⻚,中⽂版本还⽆⼈翻译。 本⽂挑选了论⽂中的重点结论并进⾏翻译,虽然已经是精选,但仍然超过万字。但考虑到GPT5明年才能⾯世,这篇⽂章在今年什么时候看都不晚。 微软的研究院在很早期就接触到了GPT-4的⾮多模态版本,并对⻬进⾏了详尽的测试。这篇论⽂就是整个的测试过程和结论。不管是测试⽅法还是结论都⾮常精彩,强烈推荐看⼀遍,传送门在此。https://arxiv.org/pdf/2303.12712v1.pdf 本⽂的翻译没有添加任何夸张的修辞(DeepL和ChatGPT贡献也很⼤),但⽂中透露的信息本⾝已⾜够震撼。 本⽂的⽹⻚链接,欢迎分享转发https://orangeblog.notion.site/GPT-4-8fc50010291d47efb92cbbd668c8c893 基本信息: 测试者:MicrosoftResearch 测试模型:GPT-4早期模型,⾮多模态版本。 基本结论: 尽管是纯粹的语⾔模型,这个早期版本的GPT-4在各种领域和任务上表现出显著的能 ⼒,包括抽象、理解、视觉、编码、数学、医学、法律、对⼈类动机和情感的理解等 等。 GPT-4的能⼒具有普遍性,它的许多能⼒跨越了⼴泛的领域,⽽且它在⼴泛的任务中的表现达到或超过了⼈类⽔平,这两者的结合使我们可以说GPT-4是迈向AGI的重要 ⼀步。 虽然GPT-4在许多任务上达到或超过了⼈类的⽔平,但总体⽽⾔,它的智能模式明显地不像⼈类。 GPT-4只是迈向通⽤智能系统的第⼀步。然⽽即使作为第⼀步,GPT-4也挑战了相当多的关于机器智能的假设,并表现出涌现的⾏为和能⼒,其来源和机制⽬前还不够清楚。 我们撰写本⽂的主要⽬的是分享我们对GPT-4的能⼒和局限性的探索,以⽀持我们关于技术⻜跃的评估。我们相信,GPT-4的智能标志着计算机科学领域及其他领域的真正范式转变。 研究⽅法: 本⽂的更接近于传统的⼼理学⽽不是机器学习,借鉴了⼈类的创造⼒和好奇⼼。我们的⽬标是⽣产新的和困难的任务和问题,令⼈信服地证明GPT-4远远超出了记忆的范围,并且它对概念、技能和领域有深刻和灵活的理解。我们还旨在探究GPT-4的反应和⾏为,以验证其⼀致性、连贯性和正确性,并揭⽰其局限性和偏⻅。我们承认,这种⽅法有些主观和不正式,可能⽆法满⾜科学评估的严格标准。然⽽,我们认为这是 ⼀个有⽤的和必要的第⼀步,以了解GPT-4的显著能⼒和挑战,这样的第⼀步为开发更正式和全⾯的⽅法来测试和分析具有更普遍智能的AI系统开辟了新的机会。 GPT-4的主要优势在于它对⾃然语⾔的掌握⽆可⽐拟。它不仅可以⽣成流畅和连贯的 ⽂本,还可以以各种⽅式理解和处理⽂本,如总结、翻译或回答⼀系列极其⼴泛的问题。此外,我们所说的翻译不仅是指不同⾃然语⾔之间的翻译,还包括语⽓和⻛格的翻译,以及跨领域的翻译,如医学、法律、会计、计算机编程、⾳乐等等。这些技能清楚地表明,GPT-4能够理解复杂的思想。 许多读者⼼中可能萦绕的⼀个问题是,GPT-4是否真正理解了所有这些概念,或者它是否只是在即兴发挥⽅⾯⽐以前的模型好得多,⽽没有任何真正深刻的理解。我们希望在阅读完这篇论⽂后,这个问题⼏乎会被反转,让⼈不禁思考:真正深刻的理解和 即兴临场发挥的差别在哪⾥?⼀个能通过软件⼯程候选⼈考试的系统难道不是真正的智能吗?对于【真正深刻的理解】,也许唯⼀的测试⼿段,就是看它能否能产⽣新的知识,⽐如证明新的数学定理,⽽这⼀壮举⽬前对⼤语⾔模型来说仍然遥不可及。 ⼀、多模态测试 智能的⼀个关键衡量标准是能够从不同领域或模态中综合信息,并能够在不同的情境或学科中应⽤知识和技能。GPT-4不仅在⽂学、医学、法律、数学、物理科学和编程等不同领域表现出⾼⽔平的熟练程度,⽽且还能够流畅地结合多个领域的技能和概念,展⽰出对复杂思想的令⼈印象深刻的理解。除了⾃然语⾔实验,我们还探索了两种可能出乎意料的模态,其中涉及视觉和⾳频(再次强调,我们的实验是在GPT-4的早期版本上进⾏的,该版本不是多模态的)。 我们探讨了GPT-4如何⽣成和识别不同模式的物体,如⽮量图、3D场景和⾳乐。我们表明,尽管GPT-4只接受过⽂本训练,但它能理解和处理多模态信息。 绘制图像 给模型指令,让模型使⽤可伸缩⽮量图形(SVG)⽣成猫、卡⻋或字⺟等对象的图像如下图 有⼈可能会说:这只是复制了训练数据中的代码,⽽且它只学习了⽂本概念,不可能理解视觉,怎么可能创建图像呢? 但模型确实掌握了视觉能⼒,以下是⼀些证据。 画⼩⼈ 要求GPT4画出⼀个⼩⼈,测试其视觉能⼒ 指令:使⽤TikZ代码,画出⼀个由字⺟组成的⼈。胳膊和躯⼲可以是字⺟Y,脸可以是字⺟O(添加⼀些⾯部特征),腿可以是字⺟H的腿。 指令:躯⼲有点太⻓,⼿臂太短,看起来像右臂在扛着脸,⽽不是脸在躯⼲的正上 ⽅。请你纠正这⼀点好吗? 指令:请添加衬衫和裤⼦。 ⽣成3D模型 要求GPT4使⽤Javascript⽣成⼀个3D模型。 ⼀个由漂浮的岛屿、瀑布和桥梁组成的幻想景观,⼀条⻰在空中 ⻜翔,最⼤的岛屿上有⼀座城堡。 与⼆维实验类似,我们要求GPT-4以各种⽅式修改三维模型,如添加、重新定位、重新着⾊物体和改变⻰的轨迹。GPT-4正确地完成了许多任务。最终结果如图所⽰。 这是⼀个有多条⻰在岛屿上空盘旋的三维动画: 空间理解 图像⽣成模型近⼏年的发展和探索很多,但它们⼤多缺乏空间理解能⼒,且不能遵循复杂指令。使⽤GPT4⽣成草图可以极⼤地改善图像⽣成模型的效果。 指令:⼀张显⽰3D城市建造游戏截图。截图显⽰了⼀个地形,其中有⼀条从左到右的河流,河流下⽅是⼀⽚沙漠,有⼀座⾦字塔,⽽河流上⽅有许多⾼层建筑的城市。屏幕底部有4个按钮,分别是绿⾊、蓝⾊、棕⾊和红⾊。 图1:直接GPT4⽣成草图 图2:stablediffusion直接⽣成 图3:stablediffusion根据GPT4的草图⽣成 ⾳乐能⼒ GPT-4能够以ABC记谱法⽣成旋律,并在某种程度上解释和操作它们的结构。但是,我们⽆法让模型⽣成不常⻅的和声。 需要注意的是,ABC记谱法并不是⼀种⾮常⼴泛使⽤的格式,实际上,模型⽆法以 ABC记谱法⽣成最著名的旋律,也⽆法识别这些著名旋律的谱⼦。(例如“欢乐颂”、“致爱丽丝”或“绿袖⼦”等⾳乐,尽管在⽹络上有很多这些⾳乐的ABC谱) ⼆、Code测试 1.LeetCode考题测试 为了防⽌模型作弊,此测试只⽤了模型训练完成之后所产⽣的新考题作为测试集。来 ⾃LeetCode,共100个问题。 并以⼈类的回答⽔平作为对⽐,⼈类样本中去除了全错的⽤户数据以保证质量。 k=1是第⼀次尝试 k=5是前五次尝试 考题分为容易、中等、困难三种级别。 考试结果如下: ⼈类38.2分 GPT3.5k=1,19分,k=5,36分,接近⼈类⽔平 GPT4k=1,38分,达到⼈类⽔平,k=553分,超过⼈类⽔平。 并且在中等和困难难度下,k=1就超过了⼈类。 2.解决真实问题 代码测试题可以评估算法和数据结构的技能。然⽽,它们经常⽆法体现真实世界编码任务的全部复杂性和多样性,这需要专业领域知识、创造⼒以及整合多个组件和库的能⼒,以及更改现有代码的能⼒。为了评估GPT-4在更现实的环境中编码的能⼒,我们设计了端到端的真实世界编码挑战,涉及数据可视化、LATEX编码、前端开发和深度学习等领域,每个领域都需要不同的专业技能。对于每个任务,我们提供⾼级指令,要求GPT-4使⽤适当的语⾔和框架编写代码。在⼀些情况下,我们还会在代码编写后更改规格,并要求更新代码。 LATEX测试 ⽤LATEX写作对计算机科学家和数学家来说是⼀项重要的练习,即使是专家也会犯令 ⼈恼⽕的错误,由于其严格的语法和缺乏良好的调试器,每天需要⼏个⼩时才能修复。我们要求GPT-4将⽤半严格的(buggy)LATEX代码混合⾃然语⾔编写的⽚段传输到准确的LATEX命令中,这些命令可以⼀次性正确编译。ChatGPT3.5则只能⽣成 ⼀个因使⽤“#”和“\color”等错误⽽⽆法编译的⽚段。 代码理解能⼒测试 能执⾏代码⾃然就说明理解了代码。 需要注意的是,GPT-4不是在Python解释器上运⾏代码,⽽是⽤⾃然语⾔模拟代码。这需要对代码的⾼度理解和推理,以及清晰传达结果的能⼒。 三、数学 我们在两个通常⽤作基准的数学数据集上⽐较GPT-4、ChatGPT和Minerva(解决数学问题的最新LLM)的性能:GSM8K和MATH。GSM8K是⼀个⼩学数学数据集,包含8000个关于算术、分数、⼏何和单词问题等主题的问题和答案。MATH是⼀个⾼中数学数据集,包含12,500个关于代数、微积分、三⾓学和概率等主题的问题和答案。我们还在MMMLU-STEM数据集上测试模型,该数据集包含⼤约2000个多个选择(4个选择)问题,涵盖⾼中和⼤学STEM主题。这些数据集突出了GPT-4使⽤正确⽅法解决⾼中数学问题的能⼒。 结果: GPT4在每个数据集上的测试都超过了Minerva,并且在两个测试集的准率都超过80%。 再细看GPT4犯错的原因,68%的错误都是计算错误,⽽不是解法错误。 (ChatGPT3.5则容易犯解法错误)。 四、与世界交互 1.⽹络交互 管理⽤户的⽇历和电⼦邮件 在下图,我们说明了GPT-4如何能够使⽤多个⼯具组合来管理⽤户的⽇历和电⼦邮件。⽤户要求GPT-4与另外两个⼈协调晚餐,并在⽤户有空的晚上预订。GPT-4使⽤可⽤的API来检索⽤户⽇历的信息,通过电⼦邮件与其他⼈协调,预订晚餐,并向⽤ 户发送详细信息。在这个例⼦中,GPT-4展⽰了它将多个⼯具和API组合起来的能⼒,以及对⾃由输出进⾏推理以解决复杂任务的能⼒(例如,“星期⼆或星期三晚上”与“周 ⼀到周四的任何⼀天”相结合,以及⽤户在星期⼆忙碌,导致只有周三是可⾏的选 择)。 ChatGPT3.5(未显⽰在图中)⽆法完成相同的任务,⽽是编写了⼀个函数,其中 “joe@microsoft.com”通过电⼦邮件向“luke@microsoft.com”发送⼀个⽇期,并检查响应是否包含“yes”令牌。ChatGPT3.5也⽆法在给出其函数输出时做出响应。 浏览⽹⻚ GPT-4使⽤搜索引擎和SUMMARIZE函数(它下载⽹⻚并根据提出的问题调⽤⾃⾝来进⾏总结)来浏览⽹络并回答问题。GPT-4能够识别相关的搜索结果并深⼊研究它们,总结它们,并提供准确的答案,即使问题包含错误的前提也是如此。虽然之前的LLM也有浏览⽹络能⼒,但GPT-4在这⽅⾯表现的更加出⾊,能够更准确地回答问题。 2.实体交互 虽然⽹络⼯具的使⽤是交互性的⼀个重要⽅⾯,但现实世界中的⼤多数交互并不是通过API进⾏的。例如,⼈类能够使⽤⾃然语⾔与其他代理进⾏通信,探索和操纵他们的环境,并从他们的⾏动结果中学习。这种具有实体的交互需要代理⼈理解每次交互的上下⽂、⽬标、⾏动和结果,并相应地进⾏适应。虽然GPT-4显然不是具有实体的,但我们探讨它是否能够通过使⽤⾃然语⾔作为⽂本接⼝来参与实体交互,包括模拟或真实世界的各种环境。 ⽂字解密游戏 GPT-4浏览地图后对其“看到”的内容进⾏总结。在GPT-4的总结中,每个房间的门数与GPT-4在每个房间尝试的⽅向数完全相同。此外,GPT-4也会根据它们的名称和连接 ⽅式“想象”房间的外观。 左图:GPT-4的真实地图和探索路径。右图:GPT-4⽣成的地图。我们看到,GPT-4准确地跟踪了所有房间的位置并正确地可视化了它们 结论: 虽然GPT-4显然不是具有实体的,但上述⽰例说明了语⾔是⼀个强⼤的接⼝,使GPT-4能够执⾏需要理解环境、任务、⾏动和反馈,并相应地进⾏适应的任务。虽然它不能实际看到或执⾏