您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[斯坦福]:2024 年 - 发现报告
当前位置:首页/行业研究/报告详情/

2024 年

信息技术2024-03-12斯坦福邓***
2024 年

arXiv:2401.03568v2[cs.AI]2024年1月25 AGENTAI: SURVEYINGTHEHORIZONSOFMULTIMODALI交互 ZaneDurante1†*,黄秋源2‡∗,直树唤醒2∗, 冉公3†,在成公园4†,BidiptaSarkar1†,RohanTaori1†,野田玉介5,DemetriTerzopoulos3,蔡叶珍4,池内胜史2,HoiVo5,李飞飞1,高剑锋2 1斯坦福大学;2微软研究院,雷德蒙德; 3加州大学洛杉矶分校;4华盛顿大学;5Microsoft游戏 图1:可以在不同领域和应用程序中感知和操作的AgetAI系统概述。AgetAI正在成为走向人工通用智能(AGI)的有希望的途径。AgetAI训练已经证明了在物理世界中多模态理解的能力。它通过利用生成AI以及多个独立的数据源,为现实不可知的训练提供了一个框架。当在跨现实数据上训练时,为代理和动作相关任务而训练的大型基础模型可以应用于物理和虚拟世界。我们介绍了AgetAI系统的一般概述,该系统可以在许多不同的领域和应用程序中进行感知和操作,可能是使用代理范式通往AGI的途径。 ∗平等的贡献。‡项目负责人。†在雷德蒙德微软研究院实习时完成的工作。 ABSTRACT 多模式AI系统可能会成为我们日常生活中无处不在的存在。使这些系统更具交互性的一种有希望的方法是将它们体现为物理和虚拟环境中的代理。目前,系统利用现有的基础模型作为创建具体化代理的基本构建块。在这样的环境中嵌入代理有助于模型处理和解释视觉和上下文数据的能力,这对于创建更复杂和上下文感知的AI系统至关重要。例如,可以感知用户动作、人类行为、环境对象、音频表达和场景的集体情绪的系统可以用于通知和指导给定环境内的代理响应。为了加速对基于代理的多模态智能的研究,我们将“代理AI”定义为一类交互系统 ,可以感知视觉刺激,语言输入和其他基于环境的数据,并可以产生有意义的体现动作。特别是,我们探索了旨在通过结合外部知识,多感官输入和人类反馈来基于下一个体现的动作预测来改善代理的系统。我们认为,通过在接地环境中开发代理AI系统,还可以减轻大型基础模型的幻觉及其产生环境错误输出的趋势。代理AI的新兴领域涵盖了多模态交互的更广泛体现和代理方面。除了代理在物理世界中行动和交互之外,我们设想了一个未来 ,人们可以轻松创建任何虚拟现实或模拟场景,并与虚拟环境中的代理交互。 Contents 1Introduction5 1.1动机5 1.2背景5 1.3Overview6 2AgentAI集成7 2.1无限AI代理7 2.2具有大型基础模型的代理AI8 2.2.1幻觉8 2.2.2偏见和包容性9 2.2.3数据隐私和使用10 2.2.4可解释性和可解释性11 2.2.5推理增强12 2.2.6Regulations13 2.3代理AI的紧急能力14 3代理AI范式15 3.1LLM和VLM15 3.2代理转换器定义15 3.3代理转换器创建16 4代理AI学习17 4.1战略与机制17 4.1.1强化学习(RL)17 4.1.2模仿学习(IL)18 4.1.3传统RGB18 4.1.4上下文学习18 4.1.5Agent系统中的优化18 4.2代理系统(零射和少射级别)19 4.2.1代理模块19 4.2.2代理基础架构19 4.3机构基础模型(培训前和finetune水平)19 5代理AI分类20 5.1通才代理领域20 5.2具身代理20 5.2.1行动代理20 5.2.2交互式代理21 5.3模拟和环境代理21 5.4创成式代理21 5.4.1AR/VR/混合现实代理22 5.5知识和逻辑推理代理22 5.5.1知识代理23 5.5.2逻辑代理23 5.5.3情感推理代理23 5.5.4神经符号剂24 5.6LLM和VLM代理24 6代理AI应用程序任务24 6.1游戏代理商24 6.1.1NPC行为24 6.1.2人与NPC的相互作用25 6.1.3基于Agent的游戏分析25 6.1.4游戏场景综合27 6.1.5实验和结果27 6.2机器人技术28 6.2.1LLM/VLMAgentforRobotics.30 6.2.2实验和结果。31 6.3医疗保健35 6.3.1当前的医疗保健能力36 6.4多式联运代理36 6.4.1图像语言理解与生成36 6.4.2视频和语言理解和生成37 6.4.3实验和结果39 6.5视频语言实验41 6.6NLP代理45 6.6.1LLM代理45 6.6.2一般LLM代理45 6.6.3遵循指令的LLM代理46 6.6.4实验和结果46 7跨模式、域和现实的代理AI48 7.1跨模态理解的代理48 7.2用于跨域了解的代理48 7.3用于跨模态和跨现实的交互式代理49 7.4Sim到RealTransfer49 8AgentAI的持续和自我改进49 8.1基于人的交互数据49 8.2基础模型生成的数据50 9代理数据集和排行榜50 9.1多代理游戏的“CuisineWorld”数据集50 9.1.1Benchmark51 9.1.2任务51 9.1.3度量和判断51 9.1.4评价51 9.2音频-视频-语言预培训数据集。51 10更广泛的影响声明52 11伦理考虑53 12多样性声明53 参考文献55 Appendix69 AGPT-4V代理提示详细信息69 BGPT-4V用于放气边缘69 C用于Microsoft战斗模拟器的GPT-4V69 D《刺客信条奥德赛》的GPT-4V69 EGPT-4V用于第4战的齿轮69 FGPT-4V适用于Starfield75 作者传记77 Acknowledgemets80 1Introduction 1.1动机 从历史上看,人工智能系统在1956年的达特茅斯会议上被定义为人造生命形式,可以从环境中收集信息并以有用的方式与之交互。在这个定义的激励下,明斯基的麻省理工学院团队在1970年建立了一个机器人系统,称为“复制演示”,观察到“块世界”的场景,并成功地重建了观察到的多面体块结构。该系统包括观察,计划和操纵模块,表明这些子问题中的每一个都具有很大的挑战性,需要进一步的研究。人工智能领域分为专门的子领域,这些子领域在解决这些和其他问题方面取得了很大进展 ,但过度还原论模糊了人工智能研究的总体目标。 为了超越现状,有必要回到亚里士多德整体主义推动的AI基础。幸运的是,最近大型语言模型(LLM)和视觉语言模型(VLM)的革命使创建符合整体理想的新型AI代理成为可能。抓住这个机会,本文探讨了整合语言能力,视觉认知,上下文记忆,直觉推理和适应性的模型。它探讨了使用LLM和VLM完成这种整体合成的可能性。在我们的探索中,我们还重新审视了基于亚里士多德的最终原因的系统设计,即目的论的“系统存在的原因”,这在前几轮人工智能开发中可能被忽视了。 随着强大的预训练LLM和VLM的出现,自然语言处理和计算机视觉的复兴得到了催化。LLM现在展示了一种令人印象深刻的能力,可以破译现实世界语言数据的细微差别,通常可以实现与人类专业知识相似甚至超越的能力(OpeAI,2023年)。最近,研究人员表明,LLM可以扩展为在各种环境中充当代理,与特定领域的知识和模块配对时执行复杂的动作和任务(Xi等人。,2023年)。这些场景的特点是复杂的推理,对代理人角色及其环境的理解以及多步计划,测试了代理人在其环境约束下做出高度细微和复杂决策的能力(W等人。,2023;元基础人工智能研究(公平)外交团队等。,2022年)。 在这些初步努力的基础上,AI社区正处于重大范式转变的风口浪尖,从为被动、结构化任务创建AI模型过渡到能够在不同和复杂的环境中承担动态、代理角色的模型。在这种情况下,本文研究了使用LLM和VLM作为代理的巨大潜力,强调了融合了语言能力,视觉认知,上下文记忆,直觉推理和适应性的模型。利用LLM和VLM作为代理,特别是在游戏、机器人和医疗保健等领域,不仅承诺为最先进的人工智能系统提供严格的评估平台,而且预示着以Aget为中心的人工智能将在整个社会和行业产生的变革性影响。当充分利用时,代理模型可以重新定义人类经验并提高运营标准。这些模型带来的全面自动化的潜力预示着行业和社会经济动态的巨大转变。正如我们将在第11节中详细说明的那样,这种进步将与多方面的领导委员会交织在一起,不仅是技术上的,而且是道德上的。我们深入研究了AgetAI的这些子领域的重叠区域,并在图1中说明了它们的互联性。 1.2背景 现在,我们将介绍相关的研究论文,这些论文支持AgentAI的概念,理论背景和现代实现。 大型基础模型:LLM和VLM一直在推动开发通用智能机器的努力(Bbec等人。,2023年;Mirchadai等人。,2023年) 。尽管他们是使用大型文本语料库进行训练的,但他们出色的解决问题的能力不仅限于规范语言处理领域。LLM可以解决复 杂的任务,这些任务以前被认为是人类专家或特定领域的算法所独有的,范围从数学推理(Imai等人。,2023年;魏等人 。,2022;朱等人。,2022)回答专业法律问题(Blair-Stae等人。,2023年;崔等人。,2023年;否,2022年)。最近的研究表明,使用LLM为机器人和游戏AI生成复杂计划的可能性(Liag等人。,2022年;王等人。,2023a,b;姚等人。,2023a;黄等人。,2023a),标志着LLM作为通用智能代理的一个重要里程碑。 体现的AI:许多作品利用LLM来执行任务计划(Hag等人。,2022a;王等人。,2023b;姚等人。,2023a;李等人。 ,2023a),特别是LLM的WWW规模领域知识和新兴的零镜头体现能力,可以执行复杂的任务计划和推理。最近的机器人 研究还利用LLM来执行任务计划(Ah等人。,2022a;黄等人。,2022b;梁等人。,2022)通过将自然语言指令分解为一系列子任务,无论是自然语言形式还是Pytho代码,然后使用低级控制器来执行这些子任务。此外,他们还结合了环境反馈来提高任务绩效(Hag等人。,2022b),(梁等人。,2022),(Wag等人。,2023a)和(池内等人。,2023年)。 互动学习:设计用于交互式学习的AI代理使用机器学习技术和用户交互的组合进行操作。最初,AI代理在大型数据集上进行训练。该数据集包括各种类型的信息,这取决于代理的预期功能。例如,为语言任务设计的AI将在大量文本数据语料库上进行训练。训练涉及使用机器学习算法,其中可能包括神经网络等深度学习模型。这些训练模型使AI能够识别模式,做出预测, 并根据训练数据生成响应。AI代理还可以从与用户的实时交互中学习。这种交互式学习可以以各种方式发生:1)基于反馈的学习:AI根据直接的用户反馈来调整其响应(Li等人。,2023b;于等人。,2023a;Parah等人。,2023年;扎等人。,2023年;威克等人。,2023a,b,c)。例如,如果用户纠正了AI的响应,AI可以使用此信息来改善未来的响应(Zha等人。,2023年;刘等人。,2023a)。2)观察学习:AI观察用户交互并隐式学习。例如,如果用户经常问类似的问题或以特定方式与AI交互,AI可能会调整其响应以更好地适应这些模式。它允许AI代理理解和处理人类语言,多模型设置,解释跨现实上下文,并生成人类用户的响应。随着时间的推移,随着更多的用户交互和反馈,AI代理的性能通常会不断提高。这个过程通常由人类操作员或开发人员监督,他们确保人工智能正在适当地学习,而不是开发偏见或不正确的模式。 1.3Overview 多模态AgetAI(MAA)是一组系统,它们基于对多模态感官输入的理解,在给定环境中生成有效的动作。随着大型语言模型(LLM)和视觉语言模型(VLM)的出现,已经在从基础研究到应用的领域中提出了许多MAA系统。虽然这些研究领域通过与每个领域的传统技术(例如Proce