您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[东方证券]:AI Agent:基于大模型的自主智能体,在探索AGI的道路上前进 - 发现报告
当前位置:首页/行业研究/报告详情/

AI Agent:基于大模型的自主智能体,在探索AGI的道路上前进

信息技术2023-08-25浦俊懿、陈超、谢忱东方证券浮***
AI Agent:基于大模型的自主智能体,在探索AGI的道路上前进

行业研究|深度报告 看好(维持) AIAgent:基于大模型的自主智能体,在探索AGI的道路上前进 计算机行业 国家/地区中国 行业计算机行业 报告发布日期2023年08月25日 核心观点 AIAgent(人工智能代理)是一种能够感知环境、进行决策和执行动作的智能实体。不同于传统的人工智能,AIAgent具备通过独立思考、调用工具去逐步完成给定目标的能力。AIAgent和大模型的区别在于,大模型与人类之间的交互是基于 prompt实现的,用户prompt是否清晰明确会影响大模型回答的效果。而AIAgent的工作仅需给定一个目标,它就能够针对目标独立思考并做出行动。和传统的RPA相比,RPA只能在给定的情况条件下,根据程序内预设好的流程来进行工作的处理,而AIAgent则可以通过和环境进行交互,感知信息并做出对应的思考和行动。 大语言模型的浪潮推动了AIAgent相关研究快速发展,AIAgent是当前通往AGI 的主要探索路线。大模型庞大的训练数据集中包含了大量人类行为数据,为模拟类 人的交互打下了坚实基础;另一方面,随着模型规模不断增大,大模型涌现出了上下文学习能力、推理能力、思维链等类似人类思考方式的多种能力。将大模型作为AIAgent的核心大脑,就可以实现以往难以实现的将复杂问题拆解成可实现的子任务、类人的自然语言交互等能力。由于大模型仍存在大量的问题如幻觉、上下文容量限制等,通过让大模型借助一个或多个Agent的能力,构建成为具备自主思考决策和执行能力的智能体,成为了当前通往AGI的主要研究方向。 一个基于大模型的AIAgent系统可以拆分为大模型、规划、记忆与工具使用四个组件部分。AIAgent可能会成为新时代的开端,其基础架构可以简单划分为Agent=LLM+规划技能+记忆+工具使用,其中LLM扮演了Agent的“大脑”,在这个 系统中提供推理、规划等能力。 AIAgent发展迅速,出现多款“出圈”级研究成果。2023年3月起,AIAgent领域迎来了第一次“出圈”,西部世界小镇、BabyAGI、AutoGPT等多款重大Agent 研究项目均在短短两周内陆续上线,引发了大家对AIAgent领域的关注。目前已经涌现了在游戏领域大放异彩的英伟达Voyager智能体、能够帮助个人完成简单任务的Agent助理HyperWrite、以及主打个人情感陪伴的AI助理Pi等多款优秀的Agent成果,AIAgent的研究进展迅速。 “Agent+”有望成为未来产品的主流,有望在多个领域实现落地应用。我们认为, AIAgent的研究是人类不断探索接近AGI的过程,随着Agent变得越来越“可用”和“好用”,“Agent+”的产品将会越来越多,未来将有望成为AI应用层的基本架构,包括toC、toB产品等。 2B和垂直领域仍是AIAgents容易率先落地的方向,用户对Agent的认知正在形成,初创企业正在卡位。由于Agent对环境反馈的依赖性较强,具备显著特点的企业环境是更加适合Agent建立起对某一个垂直领域认知的场景。当前关于AIAgent 的研究主要还是以学术界和开发者为主,商业化产品极少,但是用户对于Agent的关注度正在提升,可能未来几年间就会涌现出大量以Agent作为核心的产品应用到各行各业。目前,已经有一些初创公司开始以企业的智能体平台作为主要的产品研发方向,例如澜码科技正在打造基于LLM的企业级Agent平台。 投资建议与投资标的 我们认为,未来几年是AIAgent的快速发展窗口期,具备底层大模型算法技术的公司以及相关的应用软件公司有望基于AIAgent实现应用的落地。 大模型领域:建议关注科大讯飞(002230,买入)、三六零(601360,未评级)、拓尔 思(300229,未评级)等公司 应用软件领域:建议关注金山办公(688111,增持)、泛微网络(603039,未评级)、致远互联(688369,未评级)、彩讯股份(300634,未评级)、汉得信息(300170,未 评级)、新致软件(688590,未评级)等公司 风险提示 技术落地不及预期;政策监管风险 证券分析师浦俊懿 021-63325888*6106 pujunyi@orientsec.com.cn 执业证书编号:S0860514050004 证券分析师陈超 021-63325888*3144 chenchao3@orientsec.com.cn 执业证书编号:S0860521050002 证券分析师谢忱 xiechen@orientsec.com.cn 执业证书编号:S0860522090004 联系人杜云飞 duyunfei@orientsec.com.cn 联系人覃俊宁 qinjunning@orientsec.com.cn 联系人宋鑫宇 songxinyu@orientsec.com.cn 有关分析师的申明,见本报告最后部分。其他重要信息披露见分析师申明之后部分,或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。 目录 一、AIAgent:探索AGI的真实形态5 1.1什么是AIAgent?5 1.2Agent的最终发展目标:通用人工智能AGI6 二、AIAgent拆解:大模型、规划、记忆与工具8 2.1大模型+规划:Agent的“大脑”,通过思维链能力实现任务分解9 2.2记忆:用有限的上下文长度实现更多的记忆10 2.3工具:懂得使用工具才会更像人类11 三、AIAgent研究与应用进展13 3.1AutoGPT:推动AIAgent研究热潮13 3.2游戏领域应用:西部世界小镇与我的世界14 3.3HyperWrite:推出首个个人AI助理Agent17 3.4ModelScopeGPT:国内首个大模型调用工具18 3.5InflectionAI:高情商个人AI——Pi19 3.6AgentBench:LLM的Agent能力评估标准20 四、“Agent+”有望成为未来AI领域产品主流21 4.1AIAgent有望多个领域实现落地应用21 4.22B+垂类Agent认知正在形成,有望率先落地23 投资建议与投资标的24 风险提示24 图表目录 图1:Hyperwrite研发的AIAgent个人助理插件实现自动预订航班机票5 图2:AIAgent的工作流程5 图3:AlphaGo战胜柯洁6 图4:OpenAIFive战胜《Dota2》世界冠军6 图5:大语言模型浪潮7 图6:大模型的能力涌现现象7 图7:研究AIAgent的最终目标是通向AGI7 图8:由LLM驱动的自主智能体系统的架构8 图9:通过调整prompt可以提升大模型推理效果9 图10:AIAgent的反思框架9 图11:人类记忆的分类10 图12:非结构化数据的向量化表征11 图13:不同文本在向量空间中的相似度计算11 图14:GPT模型函数调用功能示例11 图15:HuggingGPT的工作步骤流程12 图16:AIAgents领域动态13 图17:AutoGPT在GitHub的星数增长13 图18:AutoGPT可以实现自主分析浏览器页面13 图19:基于AutoGPT完成网站建设14 图20:网页版AgentGPT14 图21:GPT-4和GPT-3.5的API价格14 图22:AutoGPT陷入死循环14 图23:斯坦福学者打造的西部世界小镇15 图24:西部世界小镇中Agents的架构15 图25:记忆流包含大量的观察、检索过程15 图26:英伟达打造Voyager智能体游玩《我的世界》16 图27:Voyager玩游戏的水平相比之前的方法大幅提升16 图28:Voyager由三大新型组件组成16 图29:Voyager的科技树解锁速度最快17 图30:Voyager的探索范围远大于其他Agent框架17 图31:HyperWrite推出个人AI助理PersonalAssistant17 图32:HyperWritePersonalAssistant交互界面18 图33:HyperWritePersonalAssistant的思考与执行操作过程18 图34:ModelScopeGPT简介18 图35:ModelScopeGPT演示18 图36:阿里云旨在建设中国大模型生态19 图37:个人AI助理Pi19 图38:Inflection-1可媲美GPT-3.5和LLaMA(65B)19 图39:Pi的幽默回复20 图40:Pi能够提供情感方面的建议20 图41:AgentBench评价LLM作为Agent的能力20 图42:常用的LLM的Agent能力排名20 图43:Agent的可能用例21 图44:GitHub关于自主代理的项目已经超过100个21 图45:澜码科技打造企业级Agent平台23 表1:将AI和人类协作的程度类比自动驾驶的不同阶段8 表2:人类记忆与AIAgent记忆的映射10 表3:AIAgent可能的应用领域22 一、AIAgent:探索AGI的真实形态 1.1什么是AIAgent? AIAgent(人工智能代理)是一种能够感知环境、进行决策和执行动作的智能实体。不同于传统的人工智能,AIAgent具备通过独立思考、调用工具去逐步完成给定目标的能力。比如,告诉AIAgent帮忙下单一份外卖,它就可以直接调用APP选择外卖,再调用支付程序下单支付,无需人类去指定每一步的操作。Agent的概念由Minsky在其1986年出版的《思维的社会》一书中提出,Minsky认为社会中的某些个体经过协商之后可求得问题的解,这些个体就是Agent。他还认为Agent应具有社会交互性和智能性。Agent的概念由此被引入人工智能和计算机领域,并迅速成为 研究热点。但苦于数据和算力限制,想要实现真正智能的AIAgents缺乏必要的现实条件。 图1:Hyperwrite研发的AIAgent个人助理插件实现自动预订航班机票 数据来源:Hyperwrite,东方证券研究所 大语言模型和AIAgent的区别在于AIAgent可以独立思考并做出行动,和RPA的区别在于它能够处理未知环境信息。ChatGPT诞生后,AI从真正意义上具备了和人类进行多轮对话的能力,并且能针对相应问题给出具体回答与建议。随后各个领域的“Copilot”推出,如Microsoft365Copilot、GitHubCopilot、AdobeFirefly等,让AI成为了办公、代码、设计等场景的“智能副驾驶”。AIAgent和大模型的区别在于,大模型与人类之间的交互是基于prompt实现的,用户 prompt是否清晰明确会影响大模型回答的效果,例如ChatGPT和这些Copilot都需要明确任务才能得到有用的回答。而AIAgent的工作仅需给定一个目标,它就能够针对目标独立思考并做出行动,它会根据给定任务详细拆解出每一步的计划步骤,依靠来自外界的反馈和自主思考,自己给自己创建prompt,来实现目标。如果说Copilot是“副驾驶”,那么Agent则可以算得上一个初级的“主驾驶”。和传统的RPA相比,RPA只能在给定的情况条件下,根据程序内预设好的流程来进行工作的处理,在出现大量未知信息、难以预测的环境中时,RPA是无法进行工作的,AIAgent则可以通过和环境进行交互,感知信息并做出对应的思考和行动。 图2:AIAgent的工作流程 数据来源:Zapier,东方证券研究所 1.2Agent的最终发展目标:通用人工智能AGI AIAgent并不是一个新兴的概念,早在多年前就已在人工智能领域有了研究。例如2014年由DeepMind推出的引发全球热议的围棋机器人AlphaGo,也可以看做是AIAgent的一种。与之类似的还有2017年OpenAI推出的用于玩《Dota2》的OpenAIFive,2019年DeepMind公布用于玩《星际争霸2》的AlphaStar等,这些AI都能根据对实时接收到的信息的分析来安排和