arXiv:2309.07864v3[cs.AI]2023年9月 基于大型语言模型的代理的兴起和潜力:一项调查 奚志恒†∗、陈文祥∗、郭欣∗、何炜∗∗、丁亦文∗、洪博阳∗、张明∗、王俊哲∗、金森杰∗、周恩宇∗、 郑锐、范晓然、小王、熊立茂、周宇浩、王蔚然、蒋昌浩、邹一成、刘向阳、尹章月、 窦世汉、翁荣祥、郑文森、 张琪†、秦文娟、郑永艳、邱西鹏、黄宣静、陶贵† 复旦NLP集团 摘要 长期以来,人类一直追求等同于或超越人类水平的人工智能(AI),而AI代理被认为是实现这一追求的有前途的工具。人工智能代理是人工实体,可以感知其环境,做出决策并采取行动。已经做出了许多努力来开发智能代理,但是它们主要集中在算法或训练策略的进步上,以增强特定任务的特定能力或性能。实际上,社区缺乏的是一个通用且强大的模型,可以作为设计能够适应各种场景的AI代理的起点。由于他们展示的多功能能力,大型语言模型(llm)被视为人工通用智能(AGI)的潜在火花,为构建通用AI代理提供了希望。许多研究人员利用LLMs作为构建AI代理的基础,并取得了重大进展。在本文中,我们对基于LLM的代理进行了全面的调查。我们首先追溯代理的概念,从其哲学起源到其在AI中的发展,并解释为什么llm是代理的合适基础。在此基础上,我们提出了基于LLM的代理的通用框架,包括三个主要组件:大脑,感知和动作,并且该框架可以针对不同的应用进行定制。随后,我们从三个方面探讨了基于LLM的代理的广泛应用:单代理场景,多代理场景和人-代理合作。在此之后,我们深入研究代理社会,探索基于LLM的代理的行为和个性,代理社会中出现的社会现象以及它们为人类社会提供的见解。最后,我们讨论了该领域的几个关键主题和开放问题。https://github.com/WooooDyy/llm-agent-Paper-List上相关论文的存储库。 †通信对象:[zhxi22@m.fudan.edu.cn,tgui]@fudan.edu.cn *同等贡献。 内容 1介绍4 2背景6 2.1AIAgent6的由来 2.2Agent研究7的技术趋势 2.3为什么LLM适合作为代理人大脑的主要组成部分?9 3代理的诞生:基于LLM的代理10的构建 3.1 脑113.1.1 自然语言交互12 3.1.2 知识13 3.1.3 内存14 3.1.4 推理和规划15 3.1.5 可传递性和泛化16 3.2 感知173.2.1 文本输入17 3.2.2 视觉输入17 3.2.3 听觉输入18 3.2.4 其他输入19 3.3行动19 3.3.1文本输出20 3.3.2工具使用20 3.3.3体现行动21 4实践中的代理商:利用AI实现良好24 4.1单一Agent25的一般能力 4.1.1面向任务的部署25 4.1.2面向创新的部署27 4.1.3面向生命周期的部署27 4.2协调多个代理28的潜力 4.2.1互补28的合作互动 4.2.2推进30的对抗性互动 4.3人与代理30之间的交互参与 4.3.1指导者-执行者范式31 4.3.2平等伙伴关系范式32 5代理人社会:从个体性到社会性的444 5.1基于LLM的代理34的行为和个性 5.1.1社会行为34 5.1.2人格36 5.2Agent社会36环境 5.2.1基于文本的环境37 5.2.2虚拟沙箱环境37 5.2.3物理环境37 5.3基于LLM代理的社会模拟38 5.3.1代理人社会的关键属性和机制。。。。。。。。。。。。。。38 5.3.2来自代理人协会的见解。。。。。。。。。。。。。。。。。。。。。。。。。39 5.3.3代理人社会中的道德和社会风险。。。。。。。。。。。。。。。。。。40 6讨论41 6.1法学硕士研究与代理研究41之间的互惠互利 6.2基于LLM的代理42的评估 6.3基于LLM的代理44的安全性、可信度和其他潜在风险 6.3.1对抗性鲁棒性44 6.3.2诚信44 6.3.3其他潜在风险45 6.4增加45的代理数量 6.5打开问题46 7结论48 1导言 “如果他们发现一只鹦鹉可以回答一切,我会毫不犹豫地声称它是一个聪明的人。 -丹尼斯·狄德罗,1875 人工智能(AI)是一个致力于设计和开发能够复制类似人类的智能和能力的系统的领域 [1]。早在18世纪,哲学家丹尼斯·狄德罗就提出了这样一个观点,即如果一只鹦鹉能够回 答每一个问题,它就可以被认为是聪明的[2]。虽然狄德罗指的是像鹦鹉这样的生物,但他的概念强调了一个深刻的概念,即高度智能的有机体可以类似于人类的智力。20世纪50年代,艾伦·图灵将这一概念扩展到人工实体,并提出了著名的图灵测试一下[3]。这项测试一下是人工智能的基石,旨在探索机器是否可以表现出与人类相当的智能行为。这些人工智能实体通常被称为“代理”,构成了人工智能系统的基本组成部分。通常在AI中,代理是指能够使用传感器感知其周围环境,做出决策,然后使用执行器[1;4]采取行动作为响应的人造实体。 代理人的概念起源于哲学,其根源可以追溯到亚里士多德和休谟等思想家[5]。它描述了 拥有欲望,信念,意图和采取行动的能力的实体[5]。这个想法转变为计算机科学,旨在使 计算机能够理解用户的兴趣并代表他们自主执行动作[6;7;8]。随着人工智能的发展,“智能体”一词在人工智能研究中找到了自己的位置,用来描述展示智能行为并具有自主性、反应性、主动性和社交能力等品质的实体[4;9]。从那时起,代理的探索和技术进步已成为AI 社区的焦点[1;10]。人工智能代理现在被认为是实现人工通用智能(AGI)1的关键一步,因 为它们包含了广泛的智能活动的潜力[4;11;12]。 从mid-20th世纪开始,随着研究深入到智能人工智能代理的设计和进步,他们在开发智能人工智能代理方面取得了重大进展[13;14;15;16;17;18]。然而,这些努力主要集中在增 强特定的能力,如符号推理,或掌握特定的任务,如围棋或国际象棋[19;20;21]。在各种情况下实现广泛的适应性仍然难以实现。此外,以前的研究更强调算法和训练策略的设计,忽视了模型固有的一般能力的发展,如知识记忆,长期规划,有效的泛化和有效的交互[22;23]。实际上,增强模型的固有能力是进一步推进代理的关键因素,并且该领域需要一个强大的基础模型,该模型具有上述各种关键属性,以作为代理系统的起点。 大型语言模型(llm)的发展为代理的进一步发展带来了一线希望[24;25;26],社区[22;27; 28;29]取得了重大进展。根据世界范围(WS)[30]的概念,它包含五个层次,描述了从NLP到一般AI的研究进展(即语料库,互联网,感知,体现和社会),纯LLMs建立在第二级,具有互联网规模的文本输入和输出。尽管如此,llm在知识获取,教学理解,泛化,计划和推理方面展示了强大的功能,同时显示了与人类有效的自然语言交互。这些优势为LLMs赢得了AGI火花的称号[31],使它们非常适合构建智能代理,以促进人类和代理和谐共存的世 界[22]。由此开始,如果我们将llm提升到代理的地位,并为其配备扩展的感知空间和行动空间,则它们有可能达到WS的第三和第四级。此外,这些基于LLMs的代理可以通过合作或竞争来处理更复杂的任务,并且将它们放在一起时可以观察到新兴的社会现象,从而有可能达到第五个WS级别。如图1所示,我们设想了一个由AI代理组成的和谐社会,人类也可以参与其中。 在本文中,我们针对基于LLM的代理进行了全面而系统的调查,试图调查这一新兴领域的现有研究和前瞻性途径。为此,我们首先深入研究关键的背景信息(§2)。特别是,我们首先从哲学到AI领域追溯AI代理的起源,并简要概述 1也被称为强AI。 点菜和烹饪 任务规划和解决 一个设想的代理人社会 厨房 户外 音乐会 用户 让我体验这个世界的节日... 讨论装饰 用工具代理 乐队表演 合作 图1:由AI代理组成的设想社会的场景,人类也可以参与其中。上图描绘了社会中的一些特定场景。在厨房里,一个代理点菜,而另一个代理则负责计划和解决烹饪任务。在音乐会上,三名经纪人正在合作乐队表演。在户外,两个代理商正在讨论灯笼制作,计划所需的材料以及通过选择和使用工具来进行财务管理。用户可以参与该社交活动的这些阶段中的任何一个。 围绕人工智能存在的辩论(第2.1节)。接下来,我们以技术趋势为视角,对人工智能代理的发展进行简要的历史回顾(2.2节)。最后,我们深入介绍了代理的基本特征,并阐明了为什么大型语言模型非常适合作为AI代理的大脑或控制器的主要组成部分(第2.3节)。 受代理定义的启发,我们为基于LLM的代理提供了一个通用的概念框架,该框架具有三个关键部分:大脑,感知和动作(§3),并且该框架可以针对不同的应用进行定制。我们首先介绍大脑,它主要由一个大的语言模型(3.1节)组成。与人类类似,大脑是人工智能的核心,因为它不仅存储关键的记忆、信息和知识,还承担着信息处理、决策、推理和规划的基本任务。它是智能体能否表现出智能行为的关键决定因素。接下来,我们介绍感知模块(3.2节)。对于代理,此模块的作用类似于人类的感觉器官。它的主要功能是将代理的感知空间从纯文本扩展到多模式空间,其中包括文本,声音,视觉,触觉,嗅觉等多种感官形式。这种扩展使智能体能够更好地感知来自外部环境的信息。最后,我们提出了用于扩展代理的动作空间的动作模块(3.3节)。具体来说,我们希望代理能够拥有文本输出,采取具体行动并使用工具,以便它可以更好地响应环境变化并提供反馈,甚至改变和塑造环境。 之后,我们对基于LLM的代理的实际应用进行了详细而透彻的介绍,并阐明了基本的设计追求-“善用AI”(§4)。首先,我们深入研究单个智能体的当前应用,并讨论它们在基于文本的任务和模拟探索环境中的表现,重点介绍它们在处理特定任务、推动创新以及展示类似人类的生存技能和适应性方面的能力(第4.1节)。接下来,我们回顾一下多智能体的发展历史。我们介绍了基于LLM的多代理系统应用程序中代理之间的交互,它们参与 合作、谈判或竞争。无论交互方式如何,代理都共同努力实现共同的目标(第4.2节)。最后,考虑到基于LLM的代理在隐私安全,道德约束和数据缺陷等方面的潜在局限性,我们讨论了human-agent协作。我们总结了代理人与人类之间协作的范例:讲师-执行者范例和平等伙伴关系范例,以及实践中的特定应用(第4.3节)。 在探索基于LLM的代理的实际应用的基础上,我们现在将重点转移到“代理社会”的概念上,研究代理与其周围环境之间的复杂相互作用(§5)。本节首先调查这些代理人是否表现出类似人的行为并具有相应的人格(第5.1节)。此外,我们介绍了代理在其中运行的社交环境,包括基于文本的环境,虚拟沙箱和物理世界(第5.2节)。与上一节(3.2节)不同,在这里我们将关注不同类型的环境,而不是代理如何感知环境。建立了主体及其环境的基础之后,我们继续揭开它们形成的模拟社会的面纱(第5.3节)。我们将讨论模拟社会的构建,并继续研究由此产生的社会现象。具体来说,我们将强调模拟社会固有的教训和潜在风险。 最后,我们讨论了基于LLM的代理领域内的一系列关键主题(§6)和开放问题:(1)LLM研究和代理研究的共同利益和启示,其中,我们证明了基于LLM的代理的发展为代理和LLM社区提供了许多机会(6.1节);(2)现有的评估工作和基于LLM的代理从四个方面的一些前景,包括效用,社交性,价值和不断发展的能力(第6.2节);(3)基于LLM的代理的潜在风险,其中我们讨论了基于LLM的代理的对抗鲁棒性和可信性。我们还讨论了一些其他风险,如滥用,失业和对人类福祉的威胁(第6.3节);(4)扩大代理人的数量,我们讨论扩大代理人数量的潜在优势和挑战,以及预先确定的和动态扩展的方法(6.4节);(5)几个开放的问题,例如关于基于LLM的代理是否代表AGI的潜在途径的争论,从虚拟模拟环境到物理环境的挑战,AI