行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

AI智能体的现状与趋势

信息技术 2025-03-26 金蝶 ZLY

AI智能体的现状与趋势

什么是智能体（Agents）

定义：智能体（AI Agents）是可以通过行动能力自主完成设定的目标的代理，具备自主性、响应性、主动性和社会性。
发展历程：从简单的任务执行到复杂的决策和交互，智能体技术不断演进。
感性认识：通过实际案例展示智能体在订酒店、点赞取关、写评论等场景中的应用。

智能体发展现状

大模型结合：大模型的出现推动了LLM-based Agent成为新范式，智能体可观察环境并利用工具行动。
强基座模型：基于大模型的智能体典型架构包括LLMs作为推理规划单元和行动执行单元。
ChatGPT关键技术：指令微调、情景学习（ICT）和思维链（COT）是ChatGPT的关键技术。
大模型的专业化：大模型通过预训练完成通识教育，需要进一步学习专业知识实现专业教育。
工具智能：工具学习技术让智能体学会使用搜索引擎等认知工具，拓展智能体能力边界。
创造和使用工具：智能体可以自己制作工具解决问题，推动下一代人机交互方式。

智能体的发展趋势

智能技术宏观发展路线：展示智能技术的发展路径和未来方向。
智能体的进化：基于大模型的智能体技术发展路线图，包括单智能体和多智能体的发展。
大模型的局限性：实时知识缺乏、协作意识薄弱、专业技能欠缺、自主能力不足。
工具学习方法：Toolformer、ToolkenGPT等工具学习方法借助外部知识提升智能体能力。
核心问题：单智能体关键要素包括记忆、规划、工具、环境；多智能体关键要素包括目标、组织、关系、路由。
多智能体的发展（决策）：MAD（多智能体辩论）等技术在多智能体决策中的应用。

智能体的应用

ChemCrow：专门用于有机合成、药物发现和材料设计等领域。
盲审判：利用多智能体模拟判决过程，预测准确度高于随机水平。
软件开发：ChatDev由LLM驱动的多角色智能群体协同进行软件开发。
建筑设计：AI智能体与建筑师合作，在三维模拟环境中设计建筑。
虚拟小镇：生成式AI智能体在虚拟小镇环境中重现人类的日常生活。
工作流与流程自动化：智能体掌握工作流程，高效执行复杂多步骤任务。
ICE框架：通过传递任务间的成功经验实现智能体的自我演化增强。

结论

AI智能体技术正在快速发展，从简单的任务执行到复杂的决策和交互，智能体在各个领域都有广泛应用。未来，智能体技术将进一步提升，实现更自然的基于语言的交互，推动人机协同发展。

杨余久清华大学SIGS智能计算实验室 2025-03-20 SIGS,智能技术实验室主任研究方向研究目标: •智能人机交互•多模态分析与理解•计算机视觉•自然语言处理 •博士生导师•广东省科技奖一等奖2项•吴文俊科技奖一等1项•多次荣获深圳市科技奖•计算机机学会/图形图象学会杰出会员招生范围 •博士研究生：模式识别•硕士研究生：人工智能、大数据、互联网+创新设计杨余久Yujiu Yang教授(Prof.) 代表性成果人才培养：研究生40余人基于KG的决策技术多模态不确定表征提出一个视觉语言预训练模型MAP，可建模不确定. •提出知识表示与分析方法，为时序KG构建奠定基础 Y. Ji,…Y. Yang, MAP: MultimodalUncertainty-Aware Vision-Language Pre-training Model. CVPR 2023: 23262-23271 苟志斌，目前我课题组的在读学生，研三。他是DeepSeek-R1模型的核心作者之一。主要负责优化了DeepSeek-R1的强化学习框架，降低了训练能耗，积极推动开源生态建设。同时，该同学还是NeurIPS2024最佳论文亚军获得者。目录CONTENTS 2 智能体的发展趋势 PART 1 究竟什么是智能体？为什么今天人人讨论智能体？ 1什么是智能体(AI Agents)？——人类智能与人工智能智能体（AI Agents或Agents)，一般认为是一个可以通过行动能力自主完成设定的目标的代理。 Manus的故事 Manus是由中国AI创业公司Monica团队于2025年3月6日推出的一款通用型AI Agent（自主智能体）将大模型逻辑推理能力转化为行动，不仅会思考，还能落实，把想法变成实际行动。与人工智能有什么不同？智能体 •自主性(Autonomy)：智能体具有某种程度的自我控制•响应性(Reactivity)：可感知其环境，并对变化有响应•主动性(Proactivity)：能主动采取以目标为导向的行为•社会性(Sociality)：与其他智能体互动和社交的能力什么是智能体(AI Agents)？——定义什么是智能体(AI Agents)？——智能体的发展历程 1什么是智能体(AI Agents)？——一些感性认识直接帮订酒店对AutoGLM说：“我29号要去一点赞取关操作找到一个叫“数字生命卡兹克”的点赞写评论、做旅行攻略对AutoGLM说：“找到我的微信里趟深圳，你帮我定个罗湖地铁站附近的酒店，预算600元以内，大床房。” 公众号，把他给取关，然后把最近给他点的赞都取消掉面的鲜虾包，给他最新的三条朋友圈点赞，并且根据他发的内容写一个有趣的评论” PART 2 智能体发展现状——和大模型结合智能体发展现状——大模型和智能体的结合 •在大模型出现后，因大模型所展示出的通用智能，LLM-basedagent成为了新范式 •LLM-basedAgent指一个使用大语言模型驱动可以观察周遭环境并利用工具作出行动以达致目标的自主实体智能体可视为独立的个体，主要核心模块包括：思考模块、记忆模块、工具调用模块。智能体的发展现状——强基座模型出现智能体的发展现状——ChatGPT的三个关键技术 1、指令微调 3、思维链（COT） 2、情景学习（ICT）智能体发展现状——大模型和智能体的结合 •LLMs大模型作为推理规划单元:借助“思维链”(Chain-of-Thought，CoT)，思维树(Tree of Thoughts，ToT)、检索增强生成(RAG)、环境/人工/模型反馈等进行推理和规划 •LLMs大模型作为行动执行单元：通过制造工具、调用工具或为物理工具提供智能（具身智能) 基于大模型的智能体——大模型作为智能体的工作环境 •Voyager：它是Minecraft中第一个由LLM驱动的具身终身学习智能体，它可以在没有人为干预的情况下不断探索世界，获得多样化的技能，并做出新的发现。 •Voyager由三个关键组成部分： •开放式探索的自动课程、•日益复杂的技能库•动作空间的迭代提示机制智能体的发展——大模型的专业化 •大模型通过预训练完成通识教育，需要进一步学习专业知识实现专业教育赋能行业应用工具型知识事实型知识流程型知识智能体的发展——工具智能工具学习技术让智能体学会使用搜索引擎等认知工具，拓展智能体能力边界 ACL 2023 智能体的发展——创造和使用工具工具改善人类生活条件，提高生产效率，推动科技和文明的进步纵观历史，人类一直是发明和使用工具的主体问题：人工智能是否具备与人类同样创造工具和使用工具的能力？ 2智能体的发展——工具学习的威力模型专业领域的针对性不足，无法处理复杂任务；专业工具更适合特定领域任务的需求受限于预训练语料知识，模型无法提供实时信息；相反，工具能够良好支持实时信息输出：目前6.76亿例感染，变异株主要为Omicron，经济遭受重创但逐渐恢复... 智能体的发展——工具学习是强AI的关键大模型能够在真实场景下辅助人类制定计划、操作工具、完成复杂任务推动下一代人机交互方式，实现更自然的基于语言的交互（相比于GUI交互）智能体的发展——自己制作工具Tool Makers GoogleDeepmind让LLM制作“工具”来解决复杂的问题 •LLM作为工具生成器（LATM），创建新工具并重复使用它们•使用调度程序处理流式数据首个接近GPT4工具调用能力的开源模型 21CAI,Tianle, et al. Large language models as tool makers.arXivpreprint arXiv:2305.17126, 2023. 基于自然语言，代码和形式化语言交错协同推理的复杂数学推理研究将PDF转换为Markdown格式根据分割策略，我们要么将整个PDF（一系列问题和解决方案）转换为文本，要么将分割好的问题（单个问题）转换为Markdown文本。智能体的发展——推理 PART 3 智能体的发展趋势智能体的发展——智能体的进化基于大模型的智能体技术发展路线图 3单智能体的发展——大模型的局限性实时知识缺乏专业技能欠缺协作意识薄弱自主能力不足大模型只能处理常见的语言任务，一旦涉及到专业场景，大模型不擅长处理这些专业任务大模型无法进行多步决策，面对复杂任务无法规划复杂逻辑，编排复杂流程来解决大模型受限于训练语料，知识有时间局限性。同时由于参数更新困难，难以获取实时知识大模型缺少协作意识，彼此之久间无法协同配合，共同完成复杂任务智能体的发展——工具学习方法(借助外部知识） •Toolformer：调用外部工具的模型 •ToolkenGPT：参数选择（情景学习，ICT） 29Shen, Y., Song, K., Tan, X., Li, D., Lu, W., & Zhuang, Y. (2024).Hugginggpt: Solvingaitaskswithchatgptand its friends in hugging face. NeuIPS2024, 36 智能体的发展——核心问题 •单智能体关键要素：记忆、规划、工具、环境 •多智能体关键要素：目标、组织、关系、路由多智能体的发展（决策）——MAD多智能体辩论 •单个智能体LLM的偏见可以被他人纠正•某一LLM对变革抵制也被其他LLM抵制•每个智能体都可以同其他智能体得到外部反馈 MAD: Multi-AgentDebate PART 4 智能体的应用 •ChemCrow智能体专门用于应对有机合成、药物发现和材料设计等领域任务。 33Bran, A. M., Cox, S.,Schilter, O.,Baldassari, C., White, A. D., &Schwaller, P. (2023). ChemCrow:Augmenting large-language models with chemistry tools.arXivpreprint arXiv:2304.05376. 大语言模型智能体的应用领域——盲审判 •盲审判利用多智能体模拟判决过程，其对现实世界最高法院裁决的预测准确度高于随机水平。 34Hamilton, S. (2023). Blind judgement: Agent-based supreme court modelling withgpt.arXivpreprint arXiv:2301.05327. 大语言模型智能体的应用领域——软件开发 •ChatDev——清华软件公司：由LLM驱动的多角色智能群体协同进行需求分析、系统设计、程序编码、集成测试、文档编制等阶段的自主软件开发大语言模型智能体的应用领域——建筑设计 •Mehta et al. (2023)提出了一种互动框架，允许建筑师与AI智能体合作，在三维模拟环境中设计建筑。 36Mehta, Nikhil, et al. "Improving grounded language understanding in a collaborative environmentby interacting with agents through help feedback."arXivpreprint arXiv:2304.10750 (2023).. 大语言模型智能体的应用领域——虚拟小镇 •生成式AI智能体致力于在虚拟小镇环境中重现人类的日常生活，通过搭建多智能体完成此目标。 ➢AI自己建立了记忆体系并定期进行深层次反思：阿伊莎汗在写关于莎士比亚毕业论文时，会定期与梅林讨论提高论文的写作技巧，并用于改善论文的质量。 ➢AI之间建立了关系并记住了彼此：最初，山姆和托亚并不认识。当他们在公园见面时，托亚对山姆说她正在进行一个摄像项目。当山姆与托亚再次遇见时，山姆主动说，托亚你的摄影项目进行的如何了。 ➢AI之间学会了相互协调：伊莎贝拉邀请她看到的人参加聚会，并向玛利亚求助进行装饰场地。 ➢AI之间学会了共享信息：当山姆决定竞选小镇镇长与汤姆进行了分享，约翰也听到了这个消息。当晚，汤姆和约翰分别提出了山姆的候选资格和获胜的机会。 ➢AI具备了定制和修改计划的能力：在模拟结束时，几乎所有的agent都制定了计划，并且很多因为环境的变化而更改了这些计划。例如，在邀请12个AI参加派对时，只有5个AI出现。其中，有三个AI说自己因为事情太忙而没有去。 Park,JoonSung, et al. "Generative agents: Interactive simulacra of human behavior." Proceedingsof the 36th Annual ACM Symposium on User Interface Software and Technology. 2023. 智能体的发展——工作流与流程自动化 •流程自动化技术让智能体掌握工作流程，高效执行复杂多步骤任务科研成果智能体根据人类需求自动构建workflow，实现机械任务自动化，同时将智能体编入workflow中进行动态决策668 智能体的发展——工作流与流程自动化 •工作流存在手工构建耗费人力、工作流动态性不足、任务经验无法重用等挑战手工构建耗费人力工作流动态性不足任务经验无法重用静态的工作流无法根据任务特性智能动态地

点击免费查看完整报告

AI智能体的现状与趋势