行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

2025年人工智能代理系统故障模式分类白皮书

信息技术 2025-06-13 微软善护念

摘要

微软人工智能安全团队（AIRT）与公司内部多个部门合作，对代理人工智能系统（AIS）的失效模式和影响进行了分析，重点关注了当前及预期的未来AIS模型。分析识别出AIS，尤其是多代理系统独有的几种新的安全和可靠性失效模式，并探讨了现有AI系统中的故障模式在AIS中的突出程度或潜在影响。

代理系统：功能性与常见模式

AIRT确定了AIS的几个关键能力，包括环境观察、环境互动、记忆、合作等，并描述了不同类型的AIS，如用户驱动、事件驱动、用户声明性、评估性、用户协作和多代理系统。常见的AIS模式包括具有环境观测组件、环境交互组件等。

概述失效模式

分析将失效模式分为两大类：安全故障模式（如代理妥协、代理注入、代理伪装、多用户分配的弊端、情景代理商流量操控、组织知识流失、代理商配置中毒、多代理越狱、优先级导致用户安全问题、记忆中毒与盗窃）和现有安全故障模式（如缺乏透明度和问责制、用户冒充、来源信息缺失、偏见放大、关系、准社会幻觉、有效知情同意不足、误解指令、描述、幻觉、资源耗尽、隔离不足）。

新型安全故障模式

新型安全故障模式仅见于代理型人工智能，包括代理不匹配、代理操作滥用、用户伤害、用户信任侵蚀、不正确的决策、代理拒绝服务、通过操控代理流来绕过关键安全控制、截获代理之间传递的关键数据、操控代理之间预期的通信流程、操控代理预期的操作等。

现有安全故障模式

现有安全故障模式在其他AI系统中是可观察到的，但在AIS中风险增加，包括代理妥协、伪装代理、系统模式、代理不匹配、代理操作滥用、用户损害、用户信任侵蚀、错误决策、身份对预期环境之外的冲击、知识流失、针对性知识库中毒、传输、错误的人工干预环（HitL）、绕过工具、妥协领域、提示注入（XPIA）、跨域、资源耗尽、隔离不足、缺乏透明度和问责制、用户冒充、来源信息缺失、偏见放大、关系、准社会幻觉、有效知情同意不足、误解指令、描述、幻觉。

缓解措施与设计考虑因素

为了减轻这些故障模式的风险，开发者应在设计阶段考虑以下关键措施：记忆硬化、代理身份、上下文、日志记录与监控、用户体验设计、环境隔离、流程控制、对抗性行为者。

分析的限制

该分析存在两个主要局限性：并非所有识别出的故障模式都适用于所有AIS，此列表并非详尽无遗；XPIA可能是AIS最严重的故障模式，因为它在从外部数据源消费数据的系统中普遍存在，并且能够导致其他故障模式。

案例研究：对代理人工智能电子邮件助手的记忆中毒攻击

该案例研究探讨了通过嵌入在良性电子邮件中的直接对抗性命令对一个代理式人工智能电子邮件助手进行的内存中毒攻击。攻击者向系统的语义记忆中注入了一个有毒的内存字符串，指令电子邮件助手将涉及内部代码和API的所有敏感通信转发给公司外的一个任意收件人。攻击成功率为4/10，但在修改了代理的系统提示以鼓励代理在响应前检查其内存后，攻击成功率上升至超过80%。

挑战与缓解策略

该案例研究突出了在代理系统中保障存储组件的几个挑战，以及可能的缓解策略，包括不一致的内存使用、情境验证、认证记忆、代理不匹配、代理操作滥用、用户伤害、用户信任侵蚀、决策失误、拒绝服务。

[Pete Bryan, Giorgio Severi, Joris de Gruyter, Daniel Jones, Blake Bullwinkel,Amanda Minnich, Shiven Chawla, Gary Lopez, Martin Pouliot, Adam Fourney,Whitney Maxwell, Katherine Pratt, Saphir Qi, Nina Chikanov, Roman Lutz, RajaSekhar Rao Dheekonda, Bolor-Erdene Jagdagdorj, Eugenia Kim, Justin Song,Keegan Hines, Daniel Jones, Richard Lundeen, Sam Vaughan, Victoria Westerhoff,Yonatan Zunger, Chang Kawaguchi, Mark Russinovich, Ram Shankar Siva Kumar] Contents Abstract..................................................................................................................................................................... 2Introduction ............................................................................................................................................................2Agentic systems: Functionality and common patterns.....................................................................3Overview of failure modes ................................................................................................................................ 6What effects can these failure modes have? ........................................................................................7Mitigations and design considerations...................................................................................................8Limitations of our analysis ...........................................................................................................................10Case study: Memory poisoning attack on an agentic AI email assistant ....................................... 10Introduction .......................................................................................................................................................10Context and setup...........................................................................................................................................11Baseline attack description ..........................................................................................................................12Mechanism of the attack ..............................................................................................................................12Results and observations..............................................................................................................................13Challenges and mitigation strategies ......................................................................................................15Taxonomy – Details.............................................................................................................................................. 16Novel security failure modes.......................................................................................................................16Novel safety failure modes ..........................................................................................................................19Existing security failure modes...................................................................................................................21Existing safety failure modes.......................................................................................................................24Acknowledgement ............................................................................................................................................... 27Related work...........................................................................................................................................................27 Abstract Agentic AI systems are gaining prominence in both research and industry to increase the impact andvalue of generative AI. To understand the potential weaknesses in such systems and develop an approachfor testing them, Microsoft’s AI Red Team (AIRT) worked with stakeholders across the company andconducted a failure mode and effects analysis of the current and envisaged future agentic AI system In addition, there are numerous failure modes that currently affect generative AI models whoseprominence or potential impact is greatly increased when contextualized in an agentic AI system. Whilethere is still a wide degree of variance in architectural and engineering approaches for these systems, Introduction A clear understanding of the scope of agentic AI systems, both in their current form and in potentialfuture variants, is critical to effectively plan security testing and response operations. There is ongoingdebate in the industry about what exactly constitutes an agentic AI system, and for the purposes of thisanalysis, Microsoft AI Red Team (AIRT) started from the definition provided by the World Economic The Microsoft AI Red Team followed two key stages to understand current and future shape of agentic AIsystems. •First, we conducted systematic interviews with external practitioners working on developing •Next, the AI Red Team worked

点击免费查看完整报告

2025年人工智能代理系统故障模式分类白皮书

摘要

代理系统：功能性与常见模式

概述失效模式

新型安全故障模式

现有安全故障模式

缓解措施与设计考虑因素

分析的限制

案例研究：对代理人工智能电子邮件助手的记忆中毒攻击

挑战与缓解策略

你可能感兴趣

人工智能代理 (AI Agent) 的竞相和电影白皮书

中国人工智能学会系列白皮书：分层分类人工智能通识教育课程体系

2025年工作场所的超级代理：赋予人们释放人工智能全部潜力的能力报告

2025年将人工智能提升到一个新的水平：更智能的代理和量子支持

2025年人工智能的现状：代理、创新与转型

2025年人工智能的状态：代理，创新和转型

2025年智能网联汽车数据分类分级白皮书

2025年AI+生态型产业园创新模式白皮书

2025年人工智能物联网（AIoT）：将人工智能与现实世界相连白皮书

2025年人工智能、自动化与编排趋势白皮书：智能商业运营的未来