您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[卡内基国际和平基金会]:If - Then 降低 AI 风险的承诺 - 发现报告
当前位置:首页/行业研究/报告详情/

If - Then 降低 AI 风险的承诺

If - Then 降低 AI 风险的承诺

If-Then降低AI风险的承诺 2024年9月 HoldenKarnofsky If-Then降低AI风险的承诺 HoldenKarnofsky ©2024卡内基国际和平基金会。保留所有权利。 卡内基不就公共政策问题采取机构立场;此处表达的观点代表了作者的观点,并不一定反映卡内基研究所、其员工或理事会的看法。 本出版物的任何部分未经国际卡内基基金会书面许可不得复制或以任何形式、通过任何手段传输。请将查询直接发送至: 卡内基国际和平基金会出版部 地址:1779MassachusettsAvenueNW,Washington,DC20036 电话:+12024837600 传真:+12024831840 官方网站:CarnegieEndowment.org 本出版物可在CarnegieEndowment.org上免费下载。 Contents Introduction1 在细节上走过潜在的If-Then承诺2 操作跳闸线7 实施If-Then承诺的“然后”部分9 将此框架应用于开放模型版本11 限制和共同关注11 如果-那么承诺 通往稳健、可执行的If-Then承诺的道路14 附录:阐述AI辅助的风险17 化学和生物武器的发展 关于作者19 Notes21 卡内基国际和平基金会29 Introduction 人工智能(AI)在多个领域可能对国际安全构成各种灾难性风险,包括加速网络攻击能力的扩散和化学或生物大规模毁灭性武器的研发能力。即便当前最强大的AI模型也尚未达到足以引发此类风险的能力。1然而,未来几年可能见证AI能力的快速且难以预测的变化。企业和政府都表现出显著的兴趣,旨在寻找方法来应对这些风险,同时避免不必要的新技术发展放缓。 这篇文章是一个新兴的框架来处理这个挑战的入门:如果-然后 如果AI模型具有功能X,则存在风险 承诺。这些是形式的承诺: 缓解措施Y必须到位。如果必要,我们将推迟AI部署和/或开发,以确保能在适当时间提供缓解措施。如果AI模型具有 一个具体的例子: 确保能够引导初学者构建大规模破坏性武器的能力,我们必须确保消费者无法轻易诱导AI模型产生此类行为。 如果-然后承诺可以由AI开发者自愿采纳;监管机构也可能据此实施。采纳这些如 果-然后承诺在两个关键方面有助于减少AI的风险:(a)通过原型设计、实战测试和建立关于潜在监管框架的共识来减少风险;(b)帮助AI开发者和其他人规划出在特定时间点所需的风险缓解措施。这样的采纳并不需要对以下内容达成一致: 1.具体的监管标准或准则; 2.如何衡量和评估AI系统的风险; 3.需要采取哪些具体措施来减轻风险; 4.确定AI系统在不同发展阶段应遵循的风险管理策略。 这种自愿采纳和潜在的监管强制措施为AI领域提供了更安全、可控的发展路径,同时也鼓励了透明度和责任性。 would 重大AI风险是否迫在眉睫-一个两极分化的话题-只有在某些情况下 if11 需要他们通过的某些风险缓解措施。 三个行业领导者-GoogleDeepMind,OpenAI,and人类在这一领域,相关方已经发布了相对详细的方法论。截至法国即将举办的2025年AI行动峰会,已有16家公司宣布计划以类似的精神建立框架。2在2024年3月的国际人工智 能安全对话中也探索了类似的想法3和2023年11月的英国AI安全峰会。4截至2024年中,大多数关于if-then承诺的讨论都集中在企业的自愿承诺上,但本 文着重探讨的是作为一个通用框架,它对拥有不同执行机制的各种行动者可能都有用处。 这篇文章解释了if-then承诺背后的关键思想,通过详细的演练 关于特定的"如果-然后"承诺,涉及人工智能模型指导新手构建大规模杀伤性化学或生物武器的可能性能力。随后讨论了"如果-然后"承诺的一些局限性,并以政府和公司等不同行动者如何贡献于建立一个强大且可执行的"如果-然后"承诺体系的概览作为结尾。 本文的背景和目的。在2023年,我帮助初步发展了与if-then承诺相关的想法。5到目前为止,我主要关注于对这一新框架的私人讨论;例如,鼓励公司自愿采纳"如果-则"承诺。本文旨在帮助那些目前不熟悉此框架的人更容易理解其潜在价值、局限性和挑战,以降低风险。对于"如果-则"承诺的关注和兴趣越多,越多的机构可能会投入更多努力继续完善和发展自己的框架,并进行实验,我们预期在减少人工智能风险方面取得的进展也会越快。 在细节上走过潜在的If-Then承诺 本部分将探讨一个可能采纳的条件-结果承诺的扩展示例,以说明框架的关键概念和挑战。如文中所指出,此示例与公司已采纳的一些政策和框架有显著重叠 。然而,这个示例并非直接从现有条件-结果承诺中复制而来。目标是呈现一个相对清晰且不受商业、法律或其他可能影响企业政策中类似内容呈现方式的特定目标所束缚的例子。 风险:武器生产专家级建议的扩散 通常讨论的来自AI的风险6其对化学和生物武器的潜在贡献能力。在这个总体框架下,存在若干具体的风险点。以下是其中的一些: 虚拟替代 这里的重点将是这样一个假设,即人工智能模型可以作为一个for 化学或生物武器生产专家顾问 an因此,极大地扩展了能够生产并部署此类武器的人数。附录详细阐述了这一假设背后的思考。 充分缓解风险的挑战 即使是最优秀的AI模型今天可能也无法达到足以显著提升能够部署灾难性破坏性武器的人数的能力水平。7 然而,很难确定未来的AI模型是否会具备这样的能力。如果确实存在这样的能 力,保持风险低可能会面临几方面的挑战。 第一个原因是防止越狱的挑战。如今,最有可能具备上述所描述令人担忧能力的AI模型(大型语言模型,即LLMs)通常被训练拒绝危险请求——理论上,这应该阻止寻求制造化学和生物武器的人从任何非常有能力的LLMs那里获得太多帮助。但目前仍有可能通过特定对话模式来“越狱”,让LLMs违反规则并几乎与任何任务合作。8使LLM(大型语言模型)能够可靠地拒绝有害请求,而不仅仅是训练它们几乎拒绝所有请求,仍然是人工智能领域的一个开放性问题。目前并无保证该问题能在特定的时间框架内得到解决(还有其他针对相同目标的方法)。不能 比如试图故意制作LLM帮助某些请求,但是 ). 这些都有自己的挑战9 模型权重 其次,即便这一问题得到解决,任何能够访问LLM(大型语言模型)的人仍然可能“逆转”LLM拒绝训练或其他限制其合作请求的控制措施。10这意味着,如果模型权重未使用合理良好的安全实践处理,或者如果由AI开发者公开发布了模型权重,即便是“越狱防护”的安全措施也可能被绕过。 如果-那么承诺的例子 试图遏制大规模武器专门知识广泛扩散的风险 notdo 销毁,同时需要对AI模型进行困难且昂贵的风险缓解 not 构成这种风险,公司或监管机构可能会使用以下方法: •IdentifyaTripwire能力在这种情况下,触发额外风险管理需求的临界点可能是指交互式互动的能力。 建议恶意演员11到演员有很大机会的地步12成功地试图生产和释放灾难性 i的f CBRN大规模杀伤性武器。13 •Makethefollowingif-then承诺:一个人工智能模型有绊网功能- then 在特定情况下,AI开发者无法实施这些缓解措施时,不应部署或存储具有陷阱门功能的模型,直至能够实施为止。如后文所述,这很可能意味着一旦达到某个阶段,就应暂停进一步的AI开发。 接近 有警告的迹象绊线。) 这一承诺,如果得以有效实施(如下面所解释的那样)并予以遵守,可以在不影响缺乏警戒线能力的模型的情况下降低风险。 风险减少利益与风险抵消成本之间的平衡将取决于被认定符合触发器“灾难性破坏”标准的化学和生物武器类别细节,以及它们所构成的风险大小。对于任何条件承诺而言,其明智与否取决于具体的风险情况。本节后续部分将暂定假设存在一个版本的条件承诺,其带来的利益超过成本。 与现有自愿承诺的关系。许多现有的AI公司政策和框架包含与上述"如果-然后"承诺类似的内容。 OpenAI的准备框架将“低”、“中”、“高”和“关键”四个“跟踪风险类别”中的AI能力分为“低”、“中”、“高”和“关键”。它声明:“只有在缓解措施后的评分低于‘中’级的模型才能部署,而只有在缓解措施后的评分低于‘高’级的模型才能进一步开发。”此外,还强调了对于具有“高”级能力的模型,其模型权重必须得到保护。14因此 ,其“高”和“关键”能力类似于触发器,引发与上述类似的一系列承诺。具体而言 ,“高”级别会触发与上述类似的风险缓解措施或暂停AI部署,而“关键”级别则会暂停进一步的AI开发。15其四个监控风险类别之一为“CBRN(化学、生物、放 射性、核能)”。其“高”和“关键”级别包含了类似于上述“警戒线”的AI能力。16 Anthropic的负责任扩展政策围绕“AI安全等级(ASL),这大致借鉴了美国政府处理危险生物材料时的安全级别标准(BSL)。我们[Anthropic]定义了一系列AI能力阈值, 代表了不断上升✁风险,每一个ASL都需要比前一个更严格✁安全、安保和运营措施。”其“ASL-3”级别提供了与上述“如果-则”承诺中类似✁风险缓解措施:“加固安全以使得非国家攻击者难以窃取模型权重,且高级威胁行为体(如国家)若要窃取这些信息则需付出显著成本”,以及“实施强大✁误用预防措施,包括...最大越狱响应时间”。 它还承诺根据需要暂停AI部署和开发,以保持这些通信。17因此,触发Anthropic✁“ASL-3”标准✁AI能力将类似于上述✁“警戒线”。这些元素包括能够“显著增加故意导致灾难性损害✁风险”,通过扩散能力、降低成本或启用新✁攻击方法...我们✁首要工作领域是在评估生物武器风险方面。这在精神上与上述警戒线相似但更为宽泛。 谷歌DeepMind✁前沿安全框架指定了“用于检测模型可能引发严重风险✁能力级别(我们称之为“关键能力水平(CCLs)”)✁协议”,以及……一系列缓解此类风险✁选项。其CCLs包括一个类似于上述“警戒线”✁能力。18其缓解措施包括“安 全缓解”和“部署缓解”,与上述“如果-然后”承诺中列出✁类似。19然而,它并没有 (像其他两种政策一样)明确指出哪种减缓措施对应于哪种关键气候限制(CCLs )——相反,这留给公司根据具体情况自行决定哪种减缓措施适合特定水平。"未 0来工作"部分表示有意向后续版本✁框架中映射特定✁CCLs到具体✁减缓措施。2 谷歌✁框架还包含了一个关于在必要时暂停部署和开发✁讨论,正如上述✁“如果-那么”承诺:“在适当✁缓解措施准备好之前,模型可能达到评估阈值。如果这种情况发生,我们会暂停进一步✁部署或开发,或者实施额外✁协议(例如为特定CCL实现更精确✁早期预警评估)以确保模型不会在适当✁网络安全缓解措施未到位✁情况下达到CCL,同时确保具有CCL✁模型在没有适当✁部署缓解措施 ✁情况下不会被部署。” 总体而言,这些政策在术语、方法和细节上存在差异,但它们✁内容都与上述✁如果-然后承诺有显著✁重叠。 此If-Then承诺✁潜在好处 按照上述思路进行if-then承诺可能会带来重大好处。 首先,这样✁承诺可能是在那些认为上述描述✁能力可能会在不久✁将来出现✁人与那些认为它可能永远都不会出现(或需要非常长✁时间)✁人之间寻求✁吸引人✁妥协。前者可能会期望如果-那么承诺, 导致不久后✁重要风险缓解;后者可能预期如果-然后承诺仅限于运行评估,如下文所述。 第二,这样✁承诺为人工智能评估✁设计提供了明确且与行动相关✁目标:评估应旨在确定给定✁人工智能模型是否接近上述设定✁安全线。负责设计评估✁团队可以创建一系列组合,包括(a)相对昂贵、耗时较长但能清晰告知开发者模型是否接近安全线✁评估;或(b)成本较低、更实用✁评估,其目标是近似于 (a)所述✁评估。 更广泛地说,在此承诺确立之后,AI开发者和其他相关人员可以尝试多种实现方式——评估AI能力✁不同方法、评估安全措施充分性✁方法等,并随着时间✁推移发现