杨余久清华大学SIGS智能计算实验室 2025-03-20 SIGS,智能技术实验室主任 研究方向 研究目标: •智能人机交互•多模态分析与理解•计算机视觉•自然语言处理 •博士生导师•广东省科技奖一等奖2项•吴文俊科技奖一等1项•多次荣获深圳市科技奖•计算机机学会/图形图象学会杰出会员 招生范围 •博士研究生:模式识别•硕士研究生:人工智能、大数据、互联网+创新设计 杨余久Yujiu Yang教授(Prof.) 代表性成果 人才培养:研究生40余人 基于KG的决策技术 多模态不确定表征 提出一个视觉语言预训练模型MAP,可建模不确定. •提出知识表示与分析方法,为时序KG构建奠定基础 Y. Ji,…Y. Yang, MAP: MultimodalUncertainty-Aware Vision-Language Pre-training Model. CVPR 2023: 23262-23271 苟志斌,目前我课题组的在读学生,研三。他是DeepSeek-R1模型的核心作者之一。主要负责优化了DeepSeek-R1的强化学习框架,降低了训练能耗,积极推动开源生态建设。同时,该同学还是NeurIPS2024最佳论文亚军获得者。 目录CONTENTS 2 智能体的发展趋势 PART 1 究竟什么是智能体?为什么今天人人讨论智能体? 1什么是智能体(AI Agents)?——人类智能与人工智能 智能体(AI Agents或Agents),一般认为是一个可以通过行动能力自主完成设定的目标的代理。 Manus的故事 Manus是由中国AI创业公司Monica团队于2025年3月6日推出的一款通用型AI Agent(自主智能体)将大模型逻辑推理能力转化为行动,不仅会思考,还能落实,把想法变成实际行动。 与人工智能有什么不同? 智能体 •自主性(Autonomy):智能体具有某种程度的自我控制•响应性(Reactivity):可感知其环境,并对变化有响应•主动性(Proactivity):能主动采取以目标为导向的行为•社会性(Sociality):与其他智能体互动和社交的能力 什么是智能体(AI Agents)?——定义 什么是智能体(AI Agents)?——智能体的发展历程 1什么是智能体(AI Agents)?——一些感性认识 直接帮订酒店对AutoGLM说:“我29号要去一 点赞取关操作找到一个叫“数字生命卡兹克”的 点赞写评论、做旅行攻略对AutoGLM说:“找到我的微信里 趟深圳,你帮我定个罗湖地铁站附近的酒店,预算600元以内,大床房。” 公众号,把他给取关,然后把最近给他点的赞都取消掉 面的鲜虾包,给他最新的三条朋友圈点赞,并且根据他发的内容写一个有趣的评论” PART 2 智能体发展现状——和大模型结合 智能体发展现状——大模型和智能体的结合 •在大模型出现后,因大模型所展示出的通用智能,LLM-basedagent成为了新范式 •LLM-basedAgent指一个使用大语言模型驱动可以观察周遭环境并利用工具作出行动以达致目标的自主实体 智能体可视为独立的个体,主要核心模块包括:思考模块、记忆模块、工具调用模块。 智能体的发展现状——强基座模型出现 智能体的发展现状——ChatGPT的三个关键技术 1、指令微调 3、思维链(COT) 2、情景学习(ICT) 智能体发展现状——大模型和智能体的结合 •LLMs大模型作为推理规划单元:借助“思维链”(Chain-of-Thought,CoT),思维树(Tree of Thoughts,ToT)、检索增强生成(RAG)、环境/人工/模型反馈等进行推理和规划 •LLMs大模型作为行动执行单元:通过制造工具、调用工具或为物理工具提供智能(具身智能) 基于大模型的智能体——大模型作为智能体的工作环境 •Voyager:它是Minecraft中第一个由LLM驱动的具身终身学习智能体,它可以在没有人为干预的情况下不断探索世界,获得多样化的技能,并做出新的发现。 •Voyager由三个关键组成部分: •开放式探索的自动课程、•日益复杂的技能库•动作空间的迭代提示机制 智能体的发展——大模型的专业化 •大模型通过预训练完成通识教育,需要进一步学习专业知识实现专业教育赋能行业应用 工具型知识 事实型知识 流程型知识 智能体的发展——工具智能 工具学习技术让智能体学会使用搜索引擎等认知工具,拓展智能体能力边界 ACL 2023 智能体的发展——创造和使用工具 工具改善人类生活条件,提高生产效率,推动科技和文明的进步 纵观历史,人类一直是发明和使用工具的主体 问题:人工智能是否具备与人类同样创造工具和使用工具的能力? 2智能体的发展——工具学习的威力 模型专业领域的针对性不足,无法处理复杂任务;专业工具更适合特定领域任务的需求 受限于预训练语料知识,模型无法提供实时信息;相反,工具能够良好支持实时信息 输出:目前6.76亿例感染,变异株主要为Omicron,经济遭受重创但逐渐恢复... 智能体的发展——工具学习是强AI的关键 大模型能够在真实场景下辅助人类制定计划、操作工具、完成复杂任务推动下一代人机交互方式,实现更自然的基于语言的交互(相比于GUI交互) 智能体的发展——自己制作工具Tool Makers GoogleDeepmind让LLM制作“工具”来解决复杂的问题 •LLM作为工具生成器(LATM),创建新工具并重复使用它们•使用调度程序处理流式数据首个接近GPT4工具调用能力的开源模型 21CAI,Tianle, et al. Large language models as tool makers.arXivpreprint arXiv:2305.17126, 2023. 基 于 自 然 语 言 , 代 码 和 形 式 化 语 言 交 错 协 同 推 理 的 复 杂 数 学 推 理 研 究 将PDF转换为Markdown格式 根据分割策略,我们要么将整个PDF(一系列问题和解决方案)转换为文本,要么将分割好的问题(单个问题)转换为Markdown文本。 智能体的发展——推理 PART 3 智能体的发展趋势 智能体的发展——智能体的进化 基于大模型的智能体技术发展路线图 3单智能体的发展——大模型的局限性 实时知识缺乏 专业技能欠缺 协作意识薄弱 自主能力不足 大 模 型 只 能 处 理 常见 的 语 言 任 务,一旦 涉 及 到 专 业 场 景,大 模 型 不 擅 长 处 理这些专业任务 大模型无法进行多步决策,面对复杂任务无法规划复杂逻辑,编排复杂流程来解决 大 模 型 受 限 于 训 练语 料,知 识 有 时 间局 限 性。同 时 由 于参 数 更 新 困 难,难以获取实时知识 大模型缺少协作意识,彼此之久间无法协同配合,共同完成复杂任务 智能体的发展——工具学习方法(借助外部知识) •Toolformer:调用外部工具的模型 •ToolkenGPT:参数选择(情景学习,ICT) 29Shen, Y., Song, K., Tan, X., Li, D., Lu, W., & Zhuang, Y. (2024).Hugginggpt: Solvingaitaskswithchatgptand its friends in hugging face. NeuIPS2024, 36 智能体的发展——核心问题 •单智能体关键要素:记忆、规划、工具、环境 •多智能体关键要素:目标、组织、关系、路由 多智能体的发展(决策)——MAD多智能体辩论 •单个智能体LLM的偏见可以被他人纠正•某一LLM对变革抵制也被其他LLM抵制•每个智能体都可以同其他智能体得到外部反馈 MAD: Multi-AgentDebate PART 4 智能体的应用 •ChemCrow智能体专门用于应对有机合成、药物发现和材料设计等领域任务。 33Bran, A. M., Cox, S.,Schilter, O.,Baldassari, C., White, A. D., &Schwaller, P. (2023). ChemCrow:Augmenting large-language models with chemistry tools.arXivpreprint arXiv:2304.05376. 大语言模型智能体的应用领域——盲审判 •盲审判利用多智能体模拟判决过程,其对现实世界最高法院裁决的预测准确度高于随机水平。 34Hamilton, S. (2023). Blind judgement: Agent-based supreme court modelling withgpt.arXivpreprint arXiv:2301.05327. 大语言模型智能体的应用领域——软件开发 •ChatDev——清华软件公司:由LLM驱动的多角色智能群体协同进行需求分析、系统设计、程序编码、集成测试、文档编制等阶段的自主软件开发 大语言模型智能体的应用领域——建筑设计 •Mehta et al. (2023)提出了一种互动框架,允许建筑师与AI智能体合作,在三维模拟环境中设计建筑。 36Mehta, Nikhil, et al. "Improving grounded language understanding in a collaborative environmentby interacting with agents through help feedback."arXivpreprint arXiv:2304.10750 (2023).. 大语言模型智能体的应用领域——虚拟小镇 •生成式AI智能体致力于在虚拟小镇环境中重现人类的日常生活,通过搭建多智能体完成此目标。 ➢AI自己建立了记忆体系并定期进行深层次反思:阿伊莎汗在写关于莎士比亚毕业论文时,会定期与梅林讨论提高论文的写作技巧,并用于改善论文的质量。 ➢AI之间建立了关系并记住了彼此:最初,山姆和托亚并不认识。当他们在公园见面时,托亚对山姆说她正在进行一个摄像项目。当山姆与托亚再次遇见时,山姆主动说,托亚你的摄影项目进行的如何了。 ➢AI之间学会了相互协调:伊莎贝拉邀请她看到的人参加聚会,并向玛利亚求助进行装饰场地。 ➢AI之间学会了共享信息:当山姆决定竞选小镇镇长与汤姆进行了分享,约翰也听到了这个消息。当晚,汤姆和约翰分别提出了山姆的候选资格和获胜的机会。 ➢AI具备了定制和修改计划的能力:在模拟结束时,几乎所有的agent都制定了计划,并且很多因为环境的变化而更改了这些计划。例如,在邀请12个AI参加派对时,只有5个AI出现。其中,有三个AI说自己因为事情太忙而没有去。 Park,JoonSung, et al. "Generative agents: Interactive simulacra of human behavior." Proceedingsof the 36th Annual ACM Symposium on User Interface Software and Technology. 2023. 智能体的发展——工作流与流程自动化 •流程自动化技术让智能体掌握工作流程,高效执行复杂多步骤任务 科研成果 智能体根据人类需求自动构建workflow,实现机械任务自动化,同时将智能体编入workflow中进行动态决策668 智能体的发展——工作流与流程自动化 •工作流存在手工构建耗费人力、工作流动态性不足、任务经验无法重用等挑战 手工构建耗费人力 工作流动态性不足 任务经验无法重用 静 态 的 工 作 流 无 法根 据 任 务 特 性 智 能动 态 地