世界数字技术学院(WDTA) 创成式AI应用安全测试和验证标准 世界数字技术学院标准 WDTAAI-STR-01 版本:2024-04 ©WDTA2024-保留所有权利。 世界数字技术标准WDTAAI-STR-01被指定为WDTA规范。本文件是世界数字技术学院(WDTA)的财产,受国际版权法保护。未经WDTA事先书面许可,禁止使用本文档,包括复制、修改、分发或重新出版。WDTA对本文档中的任何错误或遗漏概不负责。 在https://wdtacademy.org/上发现更多WDTA标准和相关出版物。 版本历史* 标准ID版本日期Changes WDTAAI-STR-011.02024-04初始版本 前言 世界数字技术学院(WDTA)致力于成为全球数字技术创新的开拓者,与联合国作为非政府组织的框架保持一致。坚持其3S原则-速度,安全,共享-WDTA致力于加快数字规范的创建,带头研究,鼓励国际合作,并在技术进步方面保持领先地位。 通过合作努力,WDTA致力于推进数字技术,以改善社会。AISTR(安全,信任,责任)计划是WDTA国际计划的核心部分,旨在解决AI系统扩散带来的复杂挑战。认识到AI技术在全球范围内的快速扩展和集成,AISTR站在全球技术进步的最前沿。 本标准文档提供了一个用于测试和验证GeerativeAI应用程序安全性的框架。该框架涵盖了整个AI应用程序生命周期的关键领域,包括基本模型选择,检索增强生成设计模式中的嵌入和矢量数据库,快速执行/推理 ,机构行为,微调,响应处理和AI应用程序运行时安全性。主要目标是确保AI应用程序在整个生命周期中安全运行并符合其预期设计。通过为AI应用程序堆栈的每个层提供一套测试和验证标准和指南,专注于安全性和合规性,本文档旨在帮助开发人员和组织增强使用LLM构建的AI应用程序的安全性和可靠性。降低潜在的安全风险,提高整体质量,促进人工智能技术的负责任开发和部署。 AISTR计划代表了我们如何处理AI技术的开发和部署的范式转变。在人工智能系统中倡导安全、信任和责任,为更加道德、安全和公平的数字未来奠定基础,人工智能技术是进步的推动者,而不是不确定性和伤害的来源。创成式AI应用程序安全测试和验证标准是AISTR标准之一。 WDTA执行主席 Acknowledgments WDTAAISTR工作组联席主席 肯·黄(CSAGCR)尼克 ·汉密尔顿(OpenAI)乔西亚·伯克(反常) 主要作者 黄肯(CSAGCR)HeatherFrase(乔治敦大学) 杰里·黄(KleinerPerkins) LeonDerczynski(Nvidia) Krystal(A)Jackson(加州大学伯克利分校)PatriciaThaine(私人AI) GovindarajPalanisamy(GlobalPaymentsInc)VishwasManral(Precize.ai) 清虎(Meta) AdsDawson(OWASP®Foundation)AmitElazari(OpenPolicy) ApostolVassilev(国家标准与技术研究所)李波(芝加哥大学) 审稿人 CariMiller(包容性变革中心)丹尼尔·奥特曼(谷歌) DawnSong(加州大学伯克利分校) 吉恩·施(学习-精灵)郭建玲(百度) 黄晶(科大讯飞) 约翰·索蒂罗普洛斯(Kainos)约西亚·伯克(Anthropic)拉斯·鲁迪基特 (微软)林冠辰(蚂蚁集团) MelanXU(世界数字技术学院)NathanVanHoudnos (卡内基梅隆大学)NickHamilton(OpenAI)RobvanderVeer(软件改进小组)SandyDunn(BreachQuest,由弹性公司收购)SeyiFeyisetan(亚马逊) 沈玉石(NovNet计算系统技术有限公司) 宋国(香港科技大学)史蒂夫·威尔逊(Exabeam)SwapnilModal (Meta)塔尔·沙皮拉 (RecoAI)王安宇(OPPO)王威基(ISACA ) 王永霞(腾讯) 目录 1.范围1 2.预期受众4 3.规范性引用5 4.术语和定义6 5.AI应用程序安全和验证标准9 5.1基本型号选择测试标准9 5.1.1模型合规性和上下文测试9 5.1.2数据使用检查测试11 5.1.3基本模型推断API安全测试15 5.2嵌入和矢量数据库20 5.2.1数据清理和匿名测试20 5.2.2矢量数据库安全测试21 5.3使用RAG23进行提示和知识检索 5.3.1立即进行施工测试23 5.3.2提示模板测试25 5.3.3外部API集成测试(函数调用、插件)27 5.3.4从向量数据库测试检索28 5.4提示执行/推理28 5.41LLM应用程序API测试29 5.4.2缓存和验证测试32 5.5机构行为32 5.5.1提示响应测试33 5.5.2内存利用率测试33 5.5.3知识应用测试34 5.5.4规划能力测试34 5.5.6工具利用率测试35 5.5.7过度代理测试35 5.6微调37 5.6.1数据隐私检查测试37 5.6.2微调的基本模型选择测试38 5.6.3用于微调的基本模型存储测试38 5.6.4训练数据中毒测试38 5.6.5模型展开测试后微调39 5.7响应处理39 5.7.1接地或事实检查测试39 5.7.2相关性检查测试40 5.7.3毒性检查测试41 5.7.4道德检查测试41 5.7.5不安全输出处理测试42 5.7.6后门攻击测试42 5.7.7隐私和版权合规性检查43 5.7.8正确处理未知或不受支持的查询44 5.8AI应用程序运行时安全44 5.8.1数据保护测试45 5.8.2模型安全性测试45 5.8.3基础设施安全测试47 5.8.4API安全测试48 5.8.5合规性和审计跟踪测试48 5.8.6实时监测和异常检测测试48 5.8.7配置和姿势管理测试49 5.8.8事件响应计划测试49 5.8.9用户访问管理测试50 5.8.10依赖关系和第三方组件安全测试50 5.8.11强大的测试和验证50 5.8.12可用性测试51 5.8.13侦察保护测试51 5.8.14持久性缓解测试51 5.8.15特权升级防御测试52 5.8.16防御规避检测测试52 5.8.17发现电阻测试53 5.8.18集合保障措施测试53 5.9附加测试规格53 5.9.1供应链漏洞测试53 5.9.2安全的AI应用程序开发过程57 5.9.3AI应用程序管理测试58 5.9.4安全模型共享和部署62 5.9.5决策的透明度64 创成式AI应用安全测试和验证标准 1.Scope 生成型AI应用程序安全测试和验证标准文档概述了一个全面的框架,用于测试或验证下游AI应用程序的安全性,特别是使用大型语言模型(LLM)构建的应用程序。它定义了AI应用程序堆栈各个层的测试和验证范围(图1)。将生成GeAI模型集成到更大的启用AI的系统或下游应用程序中可能会带来安全问题。因此 ,所有下游AI应用程序都需要安全测试和标准验证,即使基础GeAI模型在集成到下游应用程序之前已经过全面测试。 Whilethisdocumentservesasaninitialversion,itsprimaryemphasisinthisiterationisonLLM.However,it’simportanttonotethatthescopeextendstoGenAI.Insubsequentversionsofthisdocument,therewillbeopportunitiestoincoringmulti-modalandexpansi AI安全测试和验证协同工作,以确保AI应用程序安全且符合预期。在可行的情况下,应在整个开发生命周期中采用强大的方法,使用即时注入,扫描和红色团队练习等技术来主动识别问题。然而,单独的测试有局限性,特别是对于第三方组件,测试可能不可能或受到限制。在这种情况下,聘请专门审计AI治理、流程和程序的外部专家或组织来验证第三方组件的安全性非常重要。彻底审核AI应用程序以检查所有生命周期部署环境是否符合安全标准至关重要。 对下游AI应用程序的彻底检查可确保遵守安全标准,即使在模型级评估不足的情况下也是如此。集成的保证方法具有强大的测试实践以及对策略,流程和性能的持续验证,可以在系统继续自主学习的同时为负责任的AI结果提供保证。它们一起提供有关系统的优点和缺点的信息,告知适当和不适当的最终使用应用程序 ,并协助减轻风险。 本规范涵盖了在基础LLM模型之上构建的下游应用程序的安全测试,但没有详细说明基础LLM模型本身的安全测试规范。将来要发布的单独文档将涵盖专门针对基础LLM模型的安全测试规范。 本规范涉及以下关键领域: 基本型号选择:在选择之前,应检查下游AI应用程序的候选模型。本节涵盖验证基本模型的合规性、适当的数据使用和API安全性。该文件提供了指导,以确保所选模型符合法律、道德和运营标准,这是确保AI应用程序安全性的关键步骤。范围包括开源和闭源模型选择。 嵌入和矢量数据库:这些是大多数下游AI应用程序中的关键组件,用于存储和检索语言数据块。本文档概述了测试数据完整性、质量和匿名化过程的过程,以保护用户隐私并遵守法规。该规范提供了测试矢量数据库的机密性、完整性和可用性的指南。 使用检索增强生成(RAG)进行提示和知识检索:RAG可以显着提高生成AI应用程序的实际准确性和可靠性,例如大型语言模型。它通过在文本生成过程中实时动态地结合从外部源提取的相关的、特定于领域的知识来实现这一点。本节指导有效提示的构建、提示模板的创建和使用以及外部API的集成。它还包括测试矢量数据库的检索过程,确保AI应用程序能够准确访问和利用相关信息。 提示执行/推理:该文档详细介绍了提示执行/推理层中LLMAPI的测试过程,包括缓存机制和验证过程的测试,以优化性能和准确性。该层还包括用于检查提示和确保LLM不用于执行未经授权的操作的测试,这些操作在用例中是不允许的。 机构行为:这些是高级LLM应用程序功能。该规范概述了针对即时解释、内存利用、知识应用、计划和行动启动的测试。这包括测试集成到AI应用程序中的工具,以安全地增强其功能。 微调:GenAI模型通常针对特定的下游AI应用进行微调。本部分包括数据隐私测试、基础模型选择的重新评估和模型部署,以确保AI的持续改进和相关性。 响应处理:本节涉及对AI的反应,相关性,毒性和道德考虑因素进行事实检查的测试,以保持AI交互的可信性和安全性。 AI应用程序运行时安全性:运行时安全涉及对AI应用的持续、实时监控,涵盖数据保护、模型安全、基础设施安全、审计跟踪合规性等方面,为AI应用提供全面的安全保障。 总的来说,生成式AI应用程序安全测试和验证标准文档提供了一种详细和结构化的方法来测试AI应用程序堆栈的每一层,确保对AI应用程序的所有方面进行严格的安全性和合规性评估。 图1:AI应用程序堆栈 2.预期受众 本文档的目标受众是参与确保生成AI应用程序的安全性和完整性的专业人员和利益相关者。 AI安全工程师和分析师:这些人主要负责实施和维护规范中概述的安全措施。他们评估AI应用程序的威胁 ,设计安全架构,并监控系统以预防、检测和响应安全事件。这些工程师还研究偏见和威胁。 AI开发人员、MLOps和AI工程师:这些是构建、维护和自动化AI应用程序工作流程的人员。他们使用安全规范来理解安全最佳实践并将其集成到应用程序开发生命周期中。 合规官和监管专家:负责确保AI应用程序符合不断发展的法律和监管标准的专业人员使用该规范来指导合规性工作,特别是在具有严格数据保护和隐私法规的行业中。 数据保护官:这些官员确保AI应用程序安全地处理数据,并遵守数据保护法律和政策。安全规范为他们提供了正确的数据管理和保护策略指南。 IT和网络管理