您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[安远]:AI2024前沿人工智能安全的最佳实践-面向中国机构的研发实践案例与政策制定指南 - 发现报告

AI2024前沿人工智能安全的最佳实践-面向中国机构的研发实践案例与政策制定指南

信息技术2024-01-17安远F***
AI智能总结
查看更多
AI2024前沿人工智能安全的最佳实践-面向中国机构的研发实践案例与政策制定指南

执⾏摘要 前沿⼈⼯智能安全已成为全球和中国重点关注的议题 2023年10⽉18⽇,习近平主席在第三届“⼀带⼀路”国际合作⾼峰论坛开幕式主旨演讲中宣布中⽅将提出《全球⼈⼯智能治理倡议》1,重申各国应在⼈⼯智能治理中加强信息交流和技术合作,共同做好⻛险防范,形成具有⼴泛共识的⼈⼯智能治理框架和标准规范,不断提升⼈⼯智能技术的安全性、可靠性、可控性、公平性。2023年10⽉26⽇,联合国秘书⻓古特雷斯宣布,联合国正式组建⼀个新的“⼈⼯智能⾼级别咨询机构”2,以探讨这项技术带来的⻛险和机遇,并为国际社会加强治理提供⽀持。2023年11⽉1⽇,中国、美国在内的28个国家和欧盟,共同签署了《布莱切利⼈⼯智能安全宣⾔》3,⼀致认为前沿⼈⼯智能技术可能会引发巨⼤⻛险,尤其是在⽹络安全、⽣物技术和加剧传播虚假信息等⽅⾯。 此前的2023年4⽉28⽇,中共中央政治局会议明确提出,要重视通⽤⼈⼯智能发展,营造创新⽣态,重视防范⻛险4。2023年7⽉10⽇,国家⽹信办等七部⻔联合公布《⽣成式⼈⼯智能服务管理暂⾏办法》5。随着前沿⼈⼯智能的快速发展,按照《关于加强科技伦理治理的意⻅》6、《新⼀代⼈⼯智能治理原则》7、《新⼀代⼈⼯智能伦理规范》8等治理⽂件,社会应积极落实对更⾼级⼈⼯智能的潜在⻛险研判和防范,确保⼈⼯智能安全可靠可控,推动经济、社会及⽣态可持续发展。 推动前沿⼈⼯智能安全的⼯作刻不容缓 GPT-等前沿⼤模型展现出强⼤的涌现能⼒,在多领域逼近⼈类⽔平。同时,⼤模型为多个技术⽅向带来新的发展空间,包括多模态、⾃主智能体、科学发现等能⼒。模型能⼒在未来⼏年内仍存在数量级进步的空间。Inflection在未来18个⽉内将使⽤⽐当前前沿模型GPT-⼤100倍的计算量。Anthropic预计在未来的5年⾥⽤于训练最⼤模型的计算量将增加约1000倍。由于⼤模型的涌现能⼒9,这些更先进⼈⼯智能系统所带来的机遇和⻛险具有巨⼤不确定性。 短期内,社会需要积极预防⼈⼯智能所带来的⽹络安全、⽣物安全和虚假信息的滥⽤⻛险。与此同时,⼈⼯智能正获得越来越强的社交操纵、欺骗和战略规划等潜在危险能⼒,未来先进的⾃主⼈⼯智能系统将带来前所未有的控制挑战。⾯对科技伦理和公共安全的重⼤⻛险,社会应该具备底线思维,凡事从最坏处准备,努⼒争取最好的结果。 全球⼈⼯智能安全峰会中讨论了应对潜在⻛险的⼈⼯智能安全级别(ASL)框架,参考了处理危险⽣物材料的⽣物安全级别(BSL)标准10,基本思想是要求与模型潜在⻛险相适应的安全、安保和操作标准,更⾼的ASL级别需要越来越严格的安全证明。预计未来半年内,我国多个前沿⼤模型将达到或突破GPT-性能,达到ASL-能⼒级别11。确保相适应的安全标准,⾏业⾃律和政府监管缺⼀不可。 本报告⼒求促进前沿⼈⼯智能安全的中国⽅案和实践落地 1. 本报告的讨论范围 本报告聚焦的“前沿⼈⼯智能(Frontier AI)”,是指⾼能⼒的通⽤AI模型,能执⾏⼴泛的任务,并达到或超过当今最先进模型的能⼒,最常⻅的是基础模型。前沿⼈⼯智能提供了最多的机遇但也带来了新的⻛险。 本报告提供了前沿⼈⼯智能机构潜在的最佳实践清单,以及⾯向中国机构的研发实践案例与政策制定指南。这些是经过⼴泛研究后收集的,考虑到这项技术的新兴性质,需要定期更新。安全过程并未按重要性顺序列出,⽽是按主题进⾏总结,以便读者能够理解、解释和⽐较前沿机构的安全政策,及其在国内的适⽤性。本报告参考了各个前沿⼈⼯智能机构公布的最佳实践、英国政府《前沿⼈⼯智能安全的新兴流程》、国内外相关政策法规等多份参考资料(详⻅附录A)。 2. 本报告的适⽤对象 本报告是为中国领先的⼈⼯智能技术研发机构和政策研究机构编写的,以帮助他们更好地了解前沿⼈⼯智能安全的实践和政策。我们⿎励这些机构参考国际同⾏经验,结合国内实际情况,在实现负责任⼈⼯智能的过程中,提升从原则到实践、技术与治理相结合的能⼒。 虽然可能有⼀些实践与多种类型的⼈⼯智能机构相关,但负责任扩展策略等⼩部分实践是专⻔为前沿⼈⼯智能,⽽不是为能⼒以及⻛险较低的⼈⼯智能设计的。我们欢迎前沿⼈⼯智能机构,根据其独特的模型特性、开发和应⽤环境以及潜在⻛险,⾃主制定符合⾃⾝情况的负责任⼈⼯智能实践。 当前许多⼈⼯智能研发机构的运营⻛险较低,预计不会考虑采取如此⼀系列的实践措施。这符合我们对⼈⼯智能⻛险采取相称性治理和促进创新⽅法的理念。但前沿⼈⼯智能研发机构在促进前沿⼈⼯智能安全开发和部署⽅⾯发挥的重要作⽤,也将使包括⾮前沿机构在内的更⼴泛的⼈⼯智能⽣态系统受益。因此,随着最佳实践的不断出现,我们希望确保中⼩型机构也能参与⼈⼯智能安全的对话。 3. 本报告的使⽤建议 本报告概述了当今⼈⼯智能安全领域的前瞻想法、新兴流程和相关实践。其⽬的是作为前沿⼈⼯智能机构安全政策制定的参考和指南。我们欢迎对报告内容进⾏全⾯的讨论与批评,也⿎励中国机构分享实践案例,协助我们不断优化和更新这些最佳实践,并在此基础上形成可以向国际推⼴的中国实践! 前沿⼈⼯智能安全是⼀个持续演进的领域,因此最佳实践也将不断发展,这⼀发展将依赖于政府与更⼴泛的⼈⼯智能⽣态系统之间的对话和相关研究进展。⼀些有价值的实践措施本报告尚未纳⼊,⽽已纳⼊的⼀些实践措施最终也可能被证明在技术上不可⾏。因此,本报告并不是关于前沿⼈⼯智能安全的最终⽅案。我们期待随着⼈⼯智能安全研究的发展,⼈⼯智能领域进⼀步推出新的最佳实践。 4. 本报告的最佳实践 实现前沿⼈⼯智能的有效⻛险管理需要⼀系列⻛险识别和缓解措施,本报告列出了前沿⼈⼯智能机构关于⼈⼯智能安全政策的9项最佳实践,其中包括许多领先⼈⼯智能机构在2023年7⽉承诺的6项措施14: 1)模型评测和红队测试(Model evaluations and red teaming)可以帮助评估⼈⼯智能模型带来的⻛险,并为有关训练、保护和部署模型的更好决策提供信息。随着前沿⼈⼯智能模型的开发和部署,新的能⼒和⻛险可能会出现,因此在整个⼈⼯智能⽣命周期中对多种⻛险来源和潜在负⾯影响进⾏模型评测⾄关重要。由受信任的第三⽅评测进⾏的外部评测也可以帮助验证研发机构对其前沿⼈⼯智能系统安全性的声明。 2)优先研究⼈⼯智能带来的⻛险(Prioritising research on risks posed by AI)将有助于识别和解决前沿⼈⼯智能带来的新兴⻛险。前沿⼈⼯智能机构有特殊的责任和能⼒来进⾏⼈⼯智能安全研究,⼴泛分享他们的研究成果,并投资于开发⼯具来应对这些⻛险。与外部研究⼈员、独⽴研究机构和第三⽅数据所有者的合作也将对评估系统的潜在下游社会影响⾄关重要。 3)含保护模型权重在内的安全控制(Security controls including securing modelweights)是⼈⼯智能系统安全的关键⽀撑。如果没有安全地开发和部署,⼈⼯智能模型就有可能在重要的安全措施得到应⽤之前就⾯临被盗或泄露秘密或敏感数据的⻛险。为避免危及安全或敏感数据,考虑⼈⼯智能系统以及独⽴模型的⽹络安全,并在 整个⼈⼯智能⽣命周期中实施⽹络安全流程尤为重要,特别是当该组件是其他系统的基础时。 4)漏洞报告机制(Reporting structure for vulnerabilities)使外部⼈员能够识别⼈⼯智能系统中的安全问题。这类似于通常针对软件和IT基础设施中的漏洞设⽴的“漏洞赏⾦计划”。具体实践⽅式包括建⽴⼀个漏洞管理流程,涵盖许多漏洞(例如越狱和提⽰注⼊攻击),并具有清晰易⽤的流程来接收漏洞报告。 5)⼈⼯智能⽣成材料的标识信息(Identifiers of AI-generated material)提供有关内容是否由⼈⼯智能⽣成或修改的附加信息。这有助于防⽌⼈⼯智能⽣成的欺骗性内容的创建和传播。投资于开发识别⼈⼯智能⽣成内容的技术,以及探索对各种扰动具有鲁棒性的⽔印技术和⼈⼯智能⽣成内容数据库等⽅法相当重要,且已有⼀个新兴领域在开展对此的研究实践。 6)模型报告和信息共享(Model reporting and information sharing)提⾼了政府对前沿⼈⼯智能开发和部署的可⻅性。信息共享还使⽤⼾能够就是否以及如何使⽤⼈⼯智能系统做出明智的选择。实践措施涉及与不同⽅(包括政府、其他前沿⼈⼯智能机构、独⽴第三⽅和公众)共享有关其内部流程、安全和安保事件,以及特定⼈⼯智能系统的不同信息。 然⽽,前沿⼈⼯智能的⻛险管理可能需要在已有的承诺措施之外采取更多措施。我们建议的另外3个实践措施包括: 7)防⽌和监测模型滥⽤(Preventing and monitoring model misuse)是前沿⼈⼯智能安全的重要⼀环。因为⼀旦部署,⼈⼯智能系统可能会被故意滥⽤,造成有害结果。相应的实践措施包括建⽴流程识别和监测模型滥⽤,以及实施⼀系列防范措施,并随着时间的推移不断审查其有效性和可取性。考虑到滥⽤前沿⼈⼯智能可能带来的严重⻛险,还应当按最坏情景做好准备以应对潜在的滥⽤情况。 8)数据输⼊控制和审核(Data input controls and audits)可以帮助识别和删除可能增加前沿⼈⼯智能系统所拥有的危险能⼒或带来⻛险的训练数据。实施负责任的数据收集和清理有助于在收集之前提⾼训练数据的质量。对训练数据的仔细审核,⽆论是前沿⼈⼯智能机构本⾝还是外部参与⽅,也可以实现识别训练数据集中潜在有害或不可取的数据的⽬标。这可以为后续的缓解措施提供信息,例如删除这些数据。 9)负责任扩展策略(Responsible Scaling Policy, RSP)为前沿⼈⼯智能机构在扩展其前沿⼈⼯智能系统的能⼒时提供了⼀个管理⻛险的框架。它使机构能够在未来潜在的更危险的⼈⼯智能⻛险发⽣之前做好相应准备,并管理与当前系统相关的⻛险。实践措 施包括进⾏彻底的⻛险评估、预先指定⻛险阈值并承诺在每个阈值处采取具体的缓解措施,并准备在这些缓解措施未到位时暂停开发或部署。 ⼀、模型评测和红队测试 摘要 前沿⼈⼯智能可能会增加与误⽤或滥⽤、失控以及其他社会⻛险。⼈们正在开发多种⽅法来评测⼈⼯智能系统及其潜在的负⾯影响。模型评测(例如基准测试)可⽤于对⼈⼯智能系统的能⼒和其他特征进⾏定量、易于复制的评估。红队测试提供了⼀种替代⽅法,即从对⼿的⻆度观察⼈⼯智能系统,以了解如何对其进⾏破坏或滥⽤。 模型评测和红队测试有助于了解前沿⼈⼯智能系统带来的⻛险及其潜在的负⾯影响,并帮助前沿⼈⼯智能机构、监管机构和⽤⼾在训练、保护和部署这些系统⽅⾯做出更明智的决策。由于评测前沿⼈⼯智能系统的⽅法仍在不断涌现,因此,共享有关这些⽅法的开发和测试的信息⾮常重要。 我们概述了关于模型评测和红队测试的4类实践措施: 1.针对多种⻛险来源和潜在负⾯影响(包括危险能⼒、缺乏可控性、社会危害和系统安全)对模型进⾏评测2.在模型整个⽣命周期(包括训练和微调期间和之后以及部署后)的多个检查点进⾏模型评测和红队测试3.允许受信任的外部评测⽅在模型整个⽣命周期(尤其是部署前)进⾏模型评测4.⽀持模型评测科学的进步 背景 了解前沿⼈⼯智能系统的能⼒和局限性对于其有效治理⾄关重要。它构成了⻛险评估以及最终负责任的开发和部署的基础。在适当和安全的情况下分享这些知识,也可以为外部参与⽅提供必要的透明度。 但获取对系统能⼒和局限的认知,具有挑战性。通常情况下,只有在模型部署、被数百万⽤⼾使⽤并集成到下游产品中后才有可能。 模型评测和红队测试旨在帮助⼈们了解这些信息,为负责任地开发、部署和使⽤前沿⼈⼯智能系统提供依据。通过在部署这些模型之前和之后投⼊更多资源来获取相关信息,开发者和整个社会可以更快地了解这些模型的能⼒和局限性。 受信任的外部评测有助于验证开发者关于其前沿⼈⼯智能系统安全性的声明。尽管第三⽅评测⽬前尚处于萌芽阶段,但随着越来越多的机构采⽤这⼀做法,预计这个领域将快速成⻓。 实践解读 1. 针对多种⻛险来源和潜在负⾯