您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[复旦大学]:基于大型语言模型的智能体的兴起与发展 - 发现报告
当前位置:首页/行业研究/报告详情/

基于大型语言模型的智能体的兴起与发展

基于大型语言模型的智能体的兴起与发展

arXiv:2309.07864v1[cs.AI]2023年9月14日 基于大型语言模型的代理的兴起和潜力:一项调查 志恒喜∗†、陈文祥∗、郭欣∗,魏赫∗,丁一文∗、博扬红∗、张明∗,王俊哲∗、金森杰∗,周恩宇∗, 郑睿,范小冉,小王,熊丽茂,刘琴,周玉浩,王伟然,江昌浩,邹一成,刘向阳,尹章月, 石汉斗‡、翁荣祥‡,郑文森‡, 张琪†、秦文娟、郑永燕、邱希鹏、黄宣晶、陶桂† 复旦NLP集团,‡miHoYo公司 Abstract 长期以来,人类一直在追求相当于或超过人类水平的人工智能(AI),而AI代理被认为是实现这一追求的有希望的工具。AI代理是感知其环境,做出决策并采取行动的人工实体。自20世纪中叶以来,已经做出了许多努力来开发智能AI代理。然而,这些努力主要集中在算法或训练策略的进步上,以增强特定任务的特定能力或性能。实际上,社区缺乏的是一个足够通用和强大的模型,可以作为设计能够适应不同场景的AI代理的起点。由于它们展示的多功能和卓越的功能,大型语言模型(LLM)被认为是人工智能(AGI)的潜在火花,为构建通用AI代理提供了希望。许多研究工作利用LLM作为构建AI代理的基础,并取得了重大进展。我们首先从其哲学起源到AI的发展来追踪代理的概念,并解释为什么LLM是AI代理的合适基础。在此基础上,我们提出了一个基于LLM的代理的概念框架,包括三个主要组成部分:大脑,感知和动作,并且该框架可以定制以适应不同的应用。随后,我们从三个方面探讨了基于LLM的代理的广泛应用:单代理场景,多代理场景和人-代理合作。在此之后,我们深入研究代理社会,探索基于LLM的代理的行为和个性,形成社会时出现的社会现象,以及它们为人类社会提供的见解。最后,我们讨论了该领域的一系列关键主题和开放性问题。 †对应:zhxi22@m.fudan.edu.cn,[qz,tgui]@fudan.edu.cn ∗平等贡献。 1相关论文的存储库,网址为https://github.com/WooooDyy/LLM-Agent-Paper-List。 Contents 14 26 2.1代理6 2.2Research7 2.3大脑?9 310 3.1Brain11 3.1.1Interaction12 3.1.2Knowledge13 3.1.3内存14 3.1.4Planning15 3.1.5泛化16 3.2Perception17 3.2.1Input17 3.2.2Input17 3.2.3Input18 3.2.4Input19 3.3Action19 3.3.1输出20 3.3.2使用20 3.3.3Action21 424 4.1代理25 4.1.1部署25 4.1.2部署27 4.1.3部署27 4.2Agents28 4.2.1互补性28 4.2.2Advancement30 4.3代理30 4.3.1范式31 4.3.2范式32 533 5.1Agents34 5.1.1行为35 5.1.2Personality35 5.2社会36 5.2.1Environment37 5.2.2Environment37 5.2.3Environment37 5.3Agents38 5.3.1 代理社会的关键性质和机制。。。。。。。。。。。。 38 5.3.2 来自代理人协会的见解......................... 39 5.3.3 代理社会中的道德和社会风险。。。。。。。。。。。。。。。。 40 6讨论 41 6.1LLM研究与代理之间的互惠互利Research41 6.2基于LLM的评估Agents42 6.3基于LLM的安全性、可信性和其他潜在风险Agents44 6.3.1对抗性鲁棒性44 6.3.2可信性44 6.3.3其他潜力风险45 6.4扩大数量Agents45 6.5打开Problems46 7结论48 1Introduction “如果他们发现一只鹦鹉可以回答一切,我会毫不犹豫地声称它是一个聪明的人。 丹尼斯·狄德罗,1875年 人工智能(AI)是一个致力于设计和开发可以复制类似人类的智能和能力的系统的领域[1]。早在18世纪,哲学家丹尼斯·狄德罗(DeisDiderot)就提出了这样的观点:如果一只鹦鹉能够回答每一个问题,它就可以被认为是聪明的。虽然狄德罗指的是生物,比如鹦鹉,但他的概念强调了一个深刻的概念,即高度智能的有机体可能类似于人类的智能。在20世纪50年代,艾伦·图灵将这一概念扩展到人工实体,并提出了著名的图灵测试[3]。这项测试是人工智能的基石,旨在探索机器是否能显示出与人类相当的智能行为。这些AI实体通常被称为“代理”,构成AI系统的基本构建块。通常在AI中,代理是指能够使用传感器感知其周围环境,做出决策,然后使用执行器采取响应行动的人工实体[1;4]。 代理人的概念起源于哲学,其根源可以追溯到亚里士多德和休谟等思想家[5]。它描述了拥有欲望,信念 ,意图和采取行动的能力的实体[5]。这个想法转变为计算机科学,旨在使计算机能够理解用户的兴趣并代 表他们自主执行操作[6;7;8]。随着人工智能的发展,“代理”一词在人工智能研究中占据了一席之地,用 来描述展示智能行为并具有自主性、反应性、主动性和社交能力等品质的实体[4;9]。从那时起,代理的探索和技术进步已成为AI社区的焦点[1;10]。人工智能代理现在被认为是实现人工智能(AGI)2的关键一步,因为它们包含了广泛的智能活动的潜力[4;11;12]。 从20世纪中叶开始,随着研究深入到智能AI代理的设计和发展,在开发智能AI代理方面取得了重大进展[13;14;15;16;17;18]。然而,这些努力主要集中在提高特定的能力,如符号推理,或掌握特定的任务,如 围棋或国际象棋[19;20;21]。在各种情况下实现广泛的适应性仍然难以实现。此外,以前的研究更加强调算法和训练策略的设计,忽视了模型固有的一般能力的发展,如知识记忆,长期规划,有效的泛化和有效的交互[22;23]。实际上,增强模型的固有功能是进一步推进代理的关键因素,并且该领域需要一个强大的基础模型,该模型具有上述各种关键属性,可以作为代理系统的起点。 大型语言模型(LLM)的发展为代理的进一步发展带来了一线希望[24;25;26],社区也取得了重大进展[22;27;28;29]。根据世界范围(WS)[30]的概念,它包括五个层次,描述了从NLP到一般AI的研究进展(i。e.,语料库,互联网,感知,体现和社交),纯LLM构建在第二层,具有互联网规模的文本输入和输出。尽管如此,LLM在知识获取,指令理解,概括,计划和推理方面表现出强大的能力,同时显示与人类有效的自然语言交互。这些优势为LLM赢得了AGI的火花称号[31],使其成为构建智能代理以培养人类和代理和谐共存的世界的理想之选[22]。从这一点开始,如果我们将LLM提升到代理的地位,并为其配备扩展的感知空间和动作空间,则它们有可能达到WS的第三和第四级别。此外,这些基于LLM的代理可以通过合作或竞争来处理更复杂的任务,并且在将它们放在一起时可以观察到新兴的社会现象,从而有可能达到第五个WS级别。如图1所示,我们设想了一个由AI代理组成的和谐社会,人类也可以参与其中。 Inthispaper,wepresentacomprehensiveandsystematicsurveyfocusingonLLM-basedagents,attemptingtoinvestigatetheexistingstudiesandprospectiveavenuesinthisringeoningfield.Tothisend,webeginbydelvingintocritical背景information(§2).Inparticular,webeganbytracingtheoriginofAIagentsfromphilosophytothe AIdomain,alongwithabriefoverviewofthe 也被称为强AI。 一个有远见的代理人社会 厨房 Outdoors 音乐会 用户 让我在这个世界上体验节日... 乐队表演 合作 讨论装饰 使用工具 点菜和烹饪 任务规划和解决 图1:由AI代理组成的设想社会的场景,人类也可以参与其中。上面的图片描绘了社会中的一些特定场景。在厨房里,一个代理正在点菜,而另一个代理负责计划和解决烹饪任务。在音乐会上,三个经纪人正在合作在乐队中表演。在户外,两个代理商正在讨论灯笼制作,通过选择和使用工具来计划所需的材料和资金。用户可以参与此社交活动的任何这些阶段。 围绕人工代理存在的争论(§2.1)。接下来,我们将从技术趋势的角度对AI代理的发展进行简要的历史回顾(第2.2节)。最后,我们深入介绍了代理的基本特征,并阐明了为什么大型语言模型非常适合作为AI代理的大脑或控制器的主要组成部分(§2.3)。 受代理定义的启发,我们提出了一个通用的概念框架对于基于LLM的代理,有三个关键部分:大脑、感知和行动(§3),并且可以定制框架以适应不同的应用。我们首先介绍大脑,它主要由一个大的语言模型组成(§3.1)。与人类类似,大脑是人工智能智能体的核心,因为它不仅存储重要的记忆、信息和知识 ,还承担信息处理、决策、推理和规划等基本任务。它是代理是否可以表现出智能行为的关键决定因素。接下来,我们介绍感知模块(§3.2)。对于代理,此模块的作用类似于人类的感觉器官。它的主要功能是将智能体的感知空间从仅文本扩展到多模式空间,其中包括各种感官模式,如文本,声音,视觉,触觉,嗅觉等。这种扩展使代理能够更好地感知来自外部环境的信息。最后,我们介绍了用于扩展代理的动作空间的动作模块(§3.3)。具体来说,我们希望代理能够拥有文本输出,采取具体行动并使用工具,以便它可以更好地响应环境变化并提供反馈,甚至改变和塑造环境。 之后,我们将详细而全面地介绍实际应用基于LLM的代理,并阐明基本的设计追求-“善用人工智能”(§4)。首先,我们深入研究单个代理的当前应用,并讨论它们在基于文本的任务和模拟探索环境中的性能,重点介绍它们在处理特定任务、推动创新以及展示类似人类的生存技能和适应性方面的能力(§4.1)。接下 来,我们回顾了多智能体的发展历史。我们介绍了基于LLM的多代理系统应用程序中代理之间的交互。 合作、谈判或竞争。无论互动方式如何,代理人都会共同努力实现共同的目标(第4.2节)。最后,考虑到基于LLM的代理在隐私安全,道德约束和数据缺陷等方面的潜在局限性,我们讨论了人-代理协作。我们总结了代理与人类之间协作的范式:指导者-执行者范式和平等伙伴关系范式,以及在实践中的具体应用(第4.3节)。 在探索基于LLM的代理的实际应用的基础上,我们现在将重点转移到“代理社会“,检查代理与其周围环境之间复杂的相互作用(§5)。本节首先调查这些代理人是否表现出类似人类的行为并具有相应的个性(第5.1节)。此外,我们介绍了代理在其中运行的社交环境,包括基于文本的环境,虚拟沙箱和物理世界 (第5.2节)。与上一节(§3.2)不同,这里我们将重点关注不同类型的环境,而不是代理如何感知它 。在建立了代理及其环境的基础之后,我们继续揭示它们形成的模拟社会(第5.3节)。我们将讨论模拟社会的构建,并继续研究由此产生的社会现象。具体来说,我们将强调模拟社会中固有的教训和潜在风险 。 最后,我们讨论了一系列关键的主题(§6)和基于LLM的代理领域内的开放问题:(1)LLM研究和代理研究的互惠互利和启发,我们证明基于LLM的代理的发展为代理和LLM社区(§6.1);(2)现有的评估工作和基于LLM的代理从四个维度的一些前景,包括效用,社交性,价值观和不断发展的能力 (第6.2节);(3)基于LLM的代理的潜在风险,在这里我们讨论基于LLM的代理的对抗性稳健性和可信度。Wealsoicldethe