中移智库 智能体技术应用及展望 中国移动研究院业务研究所 2024年4月 摘要 中移智库 智能体(AIAgent)是一种能够自主行动、感知环境、做出决策并与环境交互的计算机系统或实体,通常依赖大型语言模型作为其核心决策和处理单元,具备独立思考、调用工具去逐步完成给定目标的能力。作为未来大模型最主流的使用方式,智能体备受业界关注。2024年智能体技术[1]被纳入《国家人工智能产业综合标准化体系建设指南 (征求意见稿)》,在标准引领下未来智能体技术将高质 量发展并助推大模型加速赋能千行百业。 本文通过阐述智能体技术、应用现状及产品演进,分 析了智能体技术未来发展方向和面临的挑战。 一、智能体技术 (一)智能体工作原理[2] 大脑(Brain):大脑主要由一个大型语言模型LLM组成, 不仅存储知识和记忆,还承担着信息处理和决策等功能, 并可以呈现推理和规划的过程,能很好地应对未知任务。感知(Perception):感知模块的核心目的是将智能体 的感知空间从纯文字领域扩展到包括文字、听觉和视觉模 式在内的多模态领域。 中移智库 行动(Action):在智能体的构建过程中,行动模块接 收大脑模块发送的行动序列,并执行与环境互动的行动。 (二)智能体技术特点[3] 大模型通常通过Prompt(提示)与用户进行交互,输出效果受限于用户提问的清晰度。信息处理方面,仅处理静态或流式数据输入,不涉及直接的环境交互,不能自主地采取行动。技术应用方面,行业知识缺乏、易出现幻觉提示词工程学习门槛高成为大模型破圈的阻碍。而基于大模型的智能体,其设计目标是实现对环境的有效互动,通 过感知模块收集环境信息,并通过行动模块来改变环境状态,整合了感知、决策、行动等多个环节,因而智能体在自主能力、决策能力、协作交互等方面展现出优势,弥补 了大模型的不足,成为人工智能界的“行动派”。 二、智能体技术应用 中移智库 根据面向的对象、流程不同,智能体主要应用在三种 场景[4]: (一)单智能体[5]应用 一个特定的环境中,仅有一个智能体进行感知、学习和行动,需要独立地与环境进行交互,并根据环境的反馈来优化其行为策略,以实现预设的目标。可应用在交互性质场景,如游戏AI(如围棋、电子游戏等)、自动驾驶汽车、机器人控制等。单智能体系统的复杂性相对较低,某 些任务中更容易实现和部署。 (二)多智能体系统[6] 中移智库 由多个智能体(软件程序、机器人或其他具有自治性的实体)组成的复杂的分布式系统,每个智能体都具有自己的感知、决策和行动能力,并且可以与其他智能体进行通信、信息共享、交互和协作,以实现共同的目标或任务通常后端设定不同角色的智能体,前端通过对话链协同工作,能够完成单个智能体难以完成或无法完成的任务,具有更高的灵活性、可扩展性和鲁棒性。可应用在分布式控 制、智能交通、智能制造、自然语言处理等领域。 (三)智能体平台[4] 构建智能体系统的集成化平台,用户在平台上定义并部署各类智能体,平台通过策略性流程,优化智能体组合以适应特定任务需求,各智能体可扮演不同专业角色,在任务协商和角色分配后,协同执行任务并完成结果整合。适用于智能体开发、企业定制化解决方案场景。 三、智能体产品演进 从时间维度智能体主流产品的演进大致可划分为三个 阶段: (一)构建智能体框架阶段[8] 中移智库 内2023年3月AutoGPT框架项目发布,包括需求下发、自主运行、结果输出三个核心模块。功能上主要是通过Prompt向ChatGPT下发任务,ChatGPT通过大模型对语义内容理解,输出详细的解决方案,经过逻辑判断选择优先执行的步骤,生成可执行的操作或指令,并调用外部资源或工具完成指令操作。AutoGPT框架把大模型的自然语言理解、内容生成、逻辑推理等核心能力外推到具体场景,辅以感知与行动技术,有端到端解决问题的潜力,被认为是大模 型落地的重要模式。 (二)GPTs智能体雏形阶段[7] 2023年11月OpenAI推出AssistantAPI,后续发布 GPTs服务,允许用户构建个人自定义GPT助手,无需编码,用户通过上传个人数据以及自定义训练,能实现垂类模型的快速搭建,大幅度降低AI应用的创作门槛,进一步推高 智能体的热潮。 (三)个人智能体孵化阶段[9] 中移智库 2023年12月联想公布了个人智能体“小乐同学”的进展。个人智能体,基于内嵌于终端的本地大模型打造,精准理解用户意图,并将意图转换为相应的任务组合,分解任务并识别任务完成的路径,通过查询本地知识库、调用设备API以及合适的模型或应用来执行相应的任务,并将相应的结果返回给智能体,智能体完成整合后反馈给用户。与云端模型能力相比,整个过程完全不用上云,不侵犯用户 个人隐私,并对硬件有很强的控制能力。 四、发展方向和面临的挑战 在不久的将来,智能体将成为AIOS系统的最小工作单 中移智库 元,嵌入自主智能体的软件极有可能改变现有的使用方式从用户适应软件变成软件适应用户习惯,真正成为个人助理。进而系统级别的智能体有望直接操作App或者子智能体,在PC、手机、自动驾驶领域预计有广泛的应用场景[10]。尽管大语言模型智能体已经取得了重要的进展,但是在实际应用中仍然面临安全、伦理、计算资源消耗、复杂工具使用、多智能体交互机制、模型适配方法、面向真实世界的智能体模拟等一系列技术挑战[11]。 [参考文献] [1]《国家人工智能产业综合标准化体系建设指南(征求意见稿)》,工信部,2024 [2]《2023年人工智能体(AIAgent)开发与应用全面调研:概念、原理、开发、应用、挑战、展望》,AI前沿,2023 中移智库 [3]《什么是Agent智能体?Agent智能体和大模型有什么区别?|商派》,商派,2024,https://www.shopex.cn/news/archives/17685.html [4]《成果|大模型驱动的自主智能体与群体智能》,AIGC最前线,2024 [5]《单智能体(SingleAgent)是指什么》,行业百科,2024[6]《多智能体系统是指什么》,行业百科,2024 [7]《AIAgent发展现状、行业结构与趋势分析》,天翼智 库,2024 [8]《AutoGPT:自动化GPT原理及应用实践》,学习猿地,2023[9]《AI时代,为什么「智能体」将成为第一入口》,极客公园,2024 [10]《2023年度十大前沿科技趋势报告》,量子位智库,2023[11]《大语言模型》,AIBOX,2024 审稿:杨蕾|业务研究所 本文作者 中移智库 高静,就职于中国移动研究院,主要从事多媒体处理、AI+赋能产品等领域研究工作。 9/10