执⾏摘要 前沿⼈⼯智能安全已成为全球和中国重点关注的议题 2023年10⽉18⽇,习近平主席在第三届“⼀带⼀路”国际合作⾼峰论坛开幕式主旨演讲中宣布中⽅将提出《全球⼈⼯智能治理倡议》1,重申各国应在⼈⼯智能治理中加强信息交流和技术合作,共同做好⻛险防范,形成具有⼴泛共识的⼈⼯智能治理框架和标准规范,不断提升⼈⼯智能技术的安全性、可靠性、可控性、公平性。2023年10⽉26⽇,联合国秘书⻓古特雷斯宣布,联合国正式组建⼀个新的“⼈⼯智能⾼级别咨询机构”2,以探讨这项技术带来的 ⻛险和机遇,并为国际社会加强治理提供⽀持。2023年11⽉1⽇,中国、美国在内的28个国家和欧盟,共同签署了《布莱切利⼈⼯智能安全宣⾔》3,⼀致认为前沿⼈⼯智能技术可能会引发巨⼤⻛险,尤其是在⽹络安全、⽣物技术和加剧传播虚假信息等⽅⾯。 此前的2023年4⽉28⽇,中共中央政治局会议明确提出,要重视通⽤⼈⼯智能发展,营造创新⽣态,重视防范⻛险4。2023年7⽉10⽇,国家⽹信办等七部⻔联合公布《⽣成式⼈⼯智能服务管理暂⾏办法》5。随着前沿⼈⼯智能的快速发展,按照《关于加强科技伦理治理的意 ⻅》6、《新⼀代⼈⼯智能治理原则》7、《新⼀代⼈⼯智能伦理规范》8等治理⽂件,社会应积极落实对更⾼级⼈⼯智能的潜在⻛险研判和防范,确保⼈⼯智能安全可靠可控,推动经济、社会及⽣态可持续发展。 1中央⽹信办,“全球⼈⼯智能治理倡议”,2023-10-18,http://www.cac.gov.cn/2023-10/18/c_1G99291032884978.htm. 2联合国,“秘书⻓组建⾼级别咨询机构,全球39名专家共商⼈⼯智能治理”,2023-10-26,https://news.un.org/zh/story/2023/10/1123382. 3UKGovernment,“CountriesagreetosafeandresponsibledevelopmentoffrontierAIinlandmarkBletchleyDeclaration”,2023-11-01, https://www.gov.uk/government/news/countries-agree-to-safe-and-responsible-development-of-frontier-ai -in-landmark-bletchley-declaration. 4新华社,“中共中央政治局召开会议分析研究当前经济形势和经济⼯作中共中央总书记习近平主持会议”,2023-04-28,https://www.gov.cn/yaowen/2023-04/28/content_5753G52.htm 5国家⽹信办等七部⻔,“⽣成式⼈⼯智能服务管理暂⾏办法”,2023-07-10,https://www.gov.cn/zhengce/zhengceku/202307/content_G891752.htm. 6中共中央办公厅、国务院办公厅,“关于加强科技伦理治理的意⻅”,2022-03-20,https://www.gov.cn/zhengce/2022-03/20/content_5G80105.htm. 7国家新⼀代⼈⼯智能治理专业委员会,“新⼀代⼈⼯智能治理原则⸺发展负责任的⼈⼯智能”,2019-06-17,https://www.most.gov.cn/kjbgz/20190G/t20190G17_147107.html. 8国家新⼀代⼈⼯智能治理专业委员会,“新⼀代⼈⼯智能伦理规范”,2021-09-25,https://www.safea.gov.cn/kjbgz/202109/t2021092G_1770G3.html. 推动前沿⼈⼯智能安全的⼯作刻不容缓 GPT-4等前沿⼤模型展现出强⼤的涌现能⼒,在多领域逼近⼈类⽔平。同时,⼤模型为多个技术⽅向带来新的发展空间,包括多模态、⾃主智能体、科学发现等能⼒。模型能⼒在未来 ⼏年内仍存在数量级进步的空间。Inflection在未来18个⽉内将使⽤⽐当前前沿模型GPT-4⼤100倍的计算量。Anthropic预计在未来的5年⾥⽤于训练最⼤模型的计算量将增加约1000倍。由于⼤模型的涌现能⼒9,这些更先进⼈⼯智能系统所带来的机遇和⻛险具有巨⼤不确定性。 短期内,社会需要积极预防⼈⼯智能所带来的⽹络安全、⽣物安全和虚假信息的滥⽤⻛险。与此同时,⼈⼯智能正获得越来越强的社交操纵、欺骗和战略规划等潜在危险能⼒,未来先进的⾃主⼈⼯智能系统将带来前所未有的控制挑战。⾯对科技伦理和公共安全的重⼤⻛险,社会应该具备底线思维,凡事从最坏处准备,努⼒争取最好的结果。 全球⼈⼯智能安全峰会中讨论了应对潜在⻛险的⼈⼯智能安全级别(ASL)框架,参考了处理危险⽣物材料的⽣物安全级别(BSL)标准10,基本思想是要求与模型潜在⻛险相适应的安 全、安保和操作标准,更⾼的ASL级别需要越来越严格的安全证明。预计未来半年内,我国多个前沿⼤模型将达到或突破GPT-4性能,达到ASL-2能⼒级别11。确保相适应的安全标准,⾏业 ⾃律和政府监管缺⼀不可。 本报告⼒求促进前沿⼈⼯智能安全的中国⽅案和实践落地 1.本报告的讨论范围 本报告聚焦的“前沿⼈⼯智能(FrontierAI)”,是指⾼能⼒的通⽤AI模型,能执⾏⼴泛的任务,并达到或超过当今最先进模型的能⼒,最常⻅的是基础模型。前沿⼈⼯智能提供了最多的机遇但也带来了新的⻛险。 本报告提供了前沿⼈⼯智能机构潜在的最佳实践清单,以及⾯向中国机构的研发实践案例与政策制定指南。这些是经过⼴泛研究后收集的,考虑到这项技术的新兴性质,需要定期更新。安全过程并未按重要性顺序列出,⽽是按主题进⾏总结,以便读者能够理解、解释和⽐较前沿机构的安全政策,及其在国内的适⽤性。本报告参考了各个前沿⼈⼯智能机构公布的最佳实践、英国政府《前沿⼈⼯智能安全的新兴流程》、国内外相关政策法规等多份参考资料(详 ⻅附录A)。 9JasonWeietal.,“EmergentAbilitiesofLargeLanguageModels”,2022-08-31,https://openreview.net/forum?id=yzkSU5zdwD. 10Wikipedia,“BiosafetyLevel”,2023-11-20,https://en.wikipedia.org/wiki/Biosafety_level. 11Anthropic,“Anthropic'sResponsibleScalingPolicy”,2023-09-19, https://www-files.anthropic.com/production/files/responsible-scaling-policy-1.0.pdf. 本报告参考了全球⼈⼯智能安全峰会的讨论范围设定12,⽩⽪书13得到图灵奖得主YoshuaBengio等专家的建议。 2.本报告的适⽤对象 本报告是为中国领先的⼈⼯智能技术研发机构和政策研究机构编写的,以帮助他们更好地了解前沿⼈⼯智能安全的实践和政策。我们⿎励这些机构参考国际同⾏经验,结合国内实际情况,在实现负责任⼈⼯智能的过程中,提升从原则到实践、技术与治理相结合的能⼒。 虽然可能有⼀些实践与多种类型的⼈⼯智能机构相关,但负责任扩展策略等⼩部分实践是专⻔为前沿⼈⼯智能,⽽不是为能⼒以及⻛险较低的⼈⼯智能设计的。我们欢迎前沿⼈⼯智能机构,根据其独特的模型特性、开发和应⽤环境以及潜在⻛险,⾃主制定符合⾃⾝情况的负责任⼈⼯智能实践。 当前许多⼈⼯智能研发机构的运营⻛险较低,预计不会考虑采取如此⼀系列的实践措施。这符合我们对⼈⼯智能⻛险采取相称性治理和促进创新⽅法的理念。但前沿⼈⼯智能研发机构在促进前沿⼈⼯智能安全开发和部署⽅⾯发挥的重要作⽤,也将使包括⾮前沿机构在内的更⼴泛的⼈⼯智能⽣态系统受益。因此,随着最佳实践的不断出现,我们希望确保中⼩型机构也能参与⼈⼯智能安全的对话。 12UKGovernment,“AISafetySummit:introduction”,2023-10-31,https://www.gov.uk/government/publications/ai-safety-summit-introduction/ai-safety-summit-introduction-html. 13UKGovernmentDepartmentforScience,Innovation&Technology,“CapabilitiesandrisksfromfrontierAI:AdiscussionpaperontheneedforfurtherresearchintoAIrisk”,2023-11-01,https://assets.publishing.service.gov.uk/media/G5395abaeGc9G8000daa9b25/frontier-ai-capabilities-risks-report.pdf. 3.本报告的使⽤建议 本报告概述了当今⼈⼯智能安全领域的前瞻想法、新兴流程和相关实践。其⽬的是作为前沿⼈⼯智能机构安全政策制定的参考和指南。我们欢迎对报告内容进⾏全⾯的讨论与批评,也 ⿎励中国机构分享实践案例,协助我们不断优化和更新这些最佳实践,并在此基础上形成可以向国际推⼴的中国实践! 前沿⼈⼯智能安全是⼀个持续演进的领域,因此最佳实践也将不断发展,这⼀发展将依赖于政府与更⼴泛的⼈⼯智能⽣态系统之间的对话和相关研究进展。⼀些有价值的实践措施本报告尚未纳⼊,⽽已纳⼊的⼀些实践措施最终也可能被证明在技术上不可⾏。因此,本报告并不是关于前沿⼈⼯智能安全的最终⽅案。我们期待随着⼈⼯智能安全研究的发展,⼈⼯智能领域进⼀步推出新的最佳实践。 4.本报告的最佳实践 实现前沿⼈⼯智能的有效⻛险管理需要⼀系列⻛险识别和缓解措施,本报告列出了前沿⼈ ⼯智能机构关于⼈⼯智能安全政策的9项最佳实践,其中包括许多领先⼈⼯智能机构在2023年7⽉承诺的6项措施14: 1)模型评测和红队测试(Modelevaluationsandredteaming)可以帮助评估⼈⼯智能模型带来的⻛险,并为有关训练、保护和部署模型的更好决策提供信息。随着前沿⼈ ⼯智能模型的开发和部署,新的能⼒和⻛险可能会出现,因此在整个⼈⼯智能⽣命周期中对多种⻛险来源和潜在负⾯影响进⾏模型评测⾄关重要。由受信任的第三⽅评测进⾏的外部评测也可以帮助验证研发机构对其前沿⼈⼯智能系统安全性的声明。 2)优先研究⼈⼯智能带来的⻛险(PrioritisingresearchonrisksposedbyAI)将有助于识别和解决前沿⼈⼯智能带来的新兴⻛险。前沿⼈⼯智能机构有特殊的责任和能⼒来进⾏⼈⼯智能安全研究,⼴泛分享他们的研究成果,并投资于开发⼯具来应对这些 ⻛险。与外部研究⼈员、独⽴研究机构和第三⽅数据所有者的合作也将对评估系统的潜在下游社会影响⾄关重要。 3)含保护模型权重在内的安全控制(Securitycontrolsincludingsecuringmodelweights)是⼈⼯智能系统安全的关键⽀撑。如果没有安全地开发和部署,⼈⼯智能模型就有可能在重要的安全措施得到应⽤之前就⾯临被盗或泄露秘密或敏感数据的⻛险。为避免危及安全或敏感数据,考虑⼈⼯智能系统以及独⽴模型的⽹络安全,并在 14TheWhiteHouse,“FACTSHEET:Biden-HarrisAdministrationSecuresVoluntaryCommitmentsfromLeadingArtificialIntelligenceCompaniestoManagetheRisksPosedbyAI”,2023-07-21,https://www.whitehouse.gov/briefing-room/statements-releases/2023/07/21/fac