您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[北京大学]:超越开源闭源的二元对立:负责任开源的内涵、实践与方案 - 发现报告
当前位置:首页/行业研究/报告详情/

超越开源闭源的二元对立:负责任开源的内涵、实践与方案

公用事业2024-04-30-北京大学邵***
超越开源闭源的二元对立:负责任开源的内涵、实践与方案

执⾏摘要 1.开源基础模型已成为创新的重要驱动⼒之⼀ 根据斯坦福⼤学《2024年AI指数报告》1,2023年全球总共发布了149个基础模型,⽐2022年发布的数量翻了⼀倍还多,⽽且更⾼⽐例是开源的。在这些新发布的模型中,有 65.7%是开源的,相⽐之下,2022年只有44.4%,2021年只有33.3%的模型是开源的。 根据全球开源社区HuggingFace的调研2,Llama1和Llama2现在已经衍⽣出了3万个新模型。多位专家预计,即将推出的Llama3400B将会是“⾸个GPT-4级别的开源模型”。 2.如何治理开源AI已成为短期内重要的未解决议题之⼀ 本报告从安全治理的⻆度探讨开源AI的政策和实践。在制定相关政策时,各国需要综合考虑促进创新⽣态、技术的安全性与可控性、隐私保护、知识产权、伦理与责任、国际合作与标准制定、市场竞争环境、教育与公众参与等多个⽅⾯。这些维度与各国的战略考虑及监管取向相结合,共同构成了开源AI的治理政策框架。 全球范围内,许多国家和地区,包括欧盟、美国、英国、法国、中国以及其他全球南⽅国家,都在积极制定AI相关政策,开源AI也成为多项政策探索的核⼼。尽管这些政策旨在平衡技术发展与安全需求,但在监管取向和具体条款的设计上存在显著差异,这部分原因是由于政策制定过程中缺乏关于⻛险、收益及潜在影响的严谨证据。 3.前沿AI开源的主要争论 领先的基础模型研发机构近年决定开源其模型或限制对其模型的访问,引发了关于是否以及如何开放能⼒⽇益增强的基础模型的争论。 我们识别了两种主要⽴场:⼀⽅是审慎开放的倡导者,他们担⼼前沿AI开源成为潜在不安全技术“不可逆转的扩散”,并主张在确保安全的基础上逐步推进开放;另⼀⽅则是⿎励开放的⽀持者,他们认为前沿AI开源是“确保对技术信任的唯⼀途径”,强调开放性对于促进创新和透明度的重要性,并反对过度限制的做法。尽管在⻛险与收益的评估、开源⽅式、安保措施以及监管政策等⽅⾯存在分歧,但两⽅都认同开放性在推动技术进步和促进社会福祉⽅⾯的重要作⽤,以及前沿AI开源的潜在⻛险,都主张在开源前应采取必要的评测等安全措施。 此外,从企业视⻆看,有关开源和闭源的讨论和实践或多或少地带有商业利益的考量。 1StanfordHAI,“2024AIIndexReport”,2024-04-15,https://aiindex.stanford.edu/report/. 2ClemDelangue,“Llama3isofficiallythefastestmodelfromreleaseto#1trendingonHuggingFace-injustafewhours.”,2024-04-19,https://twitter.com/ClementDelangue/status/17810G8939G41999388. 4.超越简单化的“开放与封闭”争论 虽然开放基础模型带来了发展与安全之间的紧张关系不可能完全消除,但我们提倡可以超越简单化的⼀维视⻆,探索更丰富的发布政策设计空间。 将AI模型简单地划分为开源或闭源是⼀种过于简化的做法。开源AI的概念尚未得到清晰定义,与开源软件不同,AI模型的“源代码”可能包括多种组件,这些组件的开放程度可以各异。此外,从“完全开放”到“完全封闭”的发布选项实际上是多样的,需要明确的标准和定义来权衡透明性、安全性和商业考量。 根据多个⻆度的安全和治理评测,我们依然⽆法得到开放或封闭模型哪个更有明显优势的结论。综合模型安全性评测,开放模型和封闭模型均显⽰出对各种攻击的脆弱性。AI研发机构治理评测指出,倾向于开放模型的机构和倾向于封闭模型的机构各有所⻓。 本报告的讨论范围设定参考了斯坦福⼤学基础模型研究中⼼的“开放基础模型”概念图3 5.推动基础模型负责任开源的务实⽅案 开源是科学和创新的重要驱动⼒,但同时需要权衡其潜在⻛险,对未来更强的前沿AI不同程度开源可能引⼊更⼤的潜在⻛险。因此,我们建议推动负责任开源,这包括两个层⾯: 第⼀,促进开放发布从构建到使⽤的全流程负责任实践。建议根据基础模型的⽣命周期和流程阶段,设计构建和使⽤阶段的负责任开源维度,并针对不同能⼒级别的模型制定差异化的负责任开源要求。例如对于⼤多数AI模型,负责任主要体现在提⾼透明度、确保合规和促进创新。⽽对于能⼒更强的前沿模型,需要实施与模型的潜在⻛险相称的评测和安全缓解措施。 3RishiBommasanietal.,“ConsiderationsforGoverningOpenFoundationModels”,2023-12-13,https://hai.stanford.edu/issue-brief-considerations-governing-open-foundation-models. 第⼆,在封闭发布中探索实现开源等效收益的替代⽅案。建议开发者应考虑开源的替代⽅案,在获得技术和社会效益的同时,⼜没有太⼤的⻛险。包括为受信任的研究⼈员提供结构化访问,以帮助识别安全或道德缺陷,⿎励独⽴第三⽅的审核等。 虽然严格意义上我们讨论的是“负责任发布”,但我们希望通过突出“负责任开源”的概念,推动开源AI安全治理的讨论,并促进负责任开源实践的发展。 6.⾯向四类⽬标群体和国际合作分别提出建议 本报告是为中国的基础模型研发机构、AI开源社区、AI治理/政策/⽴法专家、AI投资⽅和资助⽅编写的,其⽬的是作为基础模型的负责任开源的决策和实践的参考。我们⿎励相关机构和专家进⼀步探讨负责任开源的内涵,实施负责任的开源实践和⽅案。我们倡导在全球范围内展开合作,通过负责任开源助⼒发展中国家提升AI技术和治理能⼒,推动形成具有⼴泛共识的 ⾼⻛险模型治理框架和标准规范。 开源AI的负责任实践并⾮⼀成不变,⽽是会随着技术发展和社会需求的变化⽽不断演进。可以预⻅,未来开源与闭源的讨论将更加深⼊和细化,可能会出现更多创新的发布模式和治理机制,以适应不断变化的环境和挑战。在这个过程中,各⽅⾯的合作和对话将⾄关重要。 术语定义 本报告聚焦⸺基础模型的负责任开源。 ⼤规模机器学习模型相关术语,主要参考斯坦福⼤学、智源研究院: ●基础模型(FoundationModel):在⼤规模⼴泛数据上训练的模型,使其可以适应⼴泛的下游任务;国内外学界通常简称为“⼤模型”。 模型开源和开放相关术语,主要参考斯坦福⼤学、⽜津⼤学研究机构: ●开源AI(Open-SourceAI):概念尚未得到清晰定义,不同机构都⽤它来表⽰不同程度的“公开可⽤”;开放源代码促进会(OSI)等机构正致⼒于明确定义开源AI。 ●开放基础模型(OpenFoundationModels):基础模型在发布时,其权重是⼴泛可⽤的;不严格区分时,也会称为“开源基础模型”“开放模型”“开源模型”。 ●封闭基础模型(ClosedFoundationModels):基础模型在发布时,其权重不是⼴泛可 ⽤,可能受⼀定限制或完全封闭;不严格区分时,也会称为“闭源基础模型”“封闭模型”“闭源模型”“受限模型”。 ●负责任开源(ResponsibleOpen-Source):开源项⽬的维护者和贡献者在开源过程中遵循⼀定的道德和法律标准,确保技术的构建和发布对社会和个⼈是安全和有益的,这可能包括安全性、透明度、可访问性、包容性、合规性、社区治理和⽣态和创新影响等⽅⾯。 模型能⼒相关术语,主要参考全球AI安全峰会、前沿模型论坛: ●前沿AI(FrontierAI):⾼能⼒的通⽤AI模型,能执⾏⼴泛的任务,并达到或超过当今最先进模型的能⼒,最常⻅的是基础模型,提供了最多的机遇但也带来了新的⻛险。 ⼈⼯智能⻛险相关术语,主要参考⽜津⼤学研究机构: ●灾难性⻛险(CatastrophicRisk):⼀种可能发⽣的事件或过程,若发⽣将导致全球约10%或更多⼈⼝丧⽣,或造成类似损害。 致谢 本报告的主要贡献者: 安远AI:⽅亮(主要撰写⼈)、谢旻希、程远、段雅⽂北京⼤学⼈⼯智能研究院:杨耀东 北京⼤学武汉⼈⼯智能研究院:辜凌云北京通⽤⼈⼯智能研究院:綦思源 感谢北京通⽤⼈⼯智能研究院院⻓、北京⼤学⼈⼯智能研究院院⻓朱松纯教授,北京⼤学⼈⼯智能研究院⼈⼯智能安全与治理中⼼主任、北京⼤学武汉⼈⼯智能研究院副院⻓张平教授,给予的悉⼼指导和宝贵建议。 感谢安远AI伙伴潘汉⻜、张玲、王婧⼈对内容的贡献。 ⽬录 䣮车䰕金I 1各国积极发布基础模型相关政策,开源部分取向不同1 1.1欧盟《AI法案》创全球⾸部全⾯AI监管法,设独特开源豁免规定1 1.2美国⽩宫《AI⾏政命令》关注⼴泛可⽤的模型权重所带来的挑战3 1.3英国政策⽂件谨慎对待开放与封闭之争,防范监管捕获6 1.4法国将开源AI作为其“创新优先”发展AI的核⼼战略之⼀7 1.5中国⼈⼯智能法的两份专家建议稿对开源问题做不同处理9 1.6其他全球南⽅国家⿎励AI⻛险与收益研究,以开放科学应对全球发展11 1.7⼩结12 2审慎开放vs⿎励开放,前沿AI开源的主要争论13 2.1争论主要在于前沿AI的滥⽤和失控⻛险13 2.2⽴场⼀:审慎开放,防范⻛险的开放⻔槛须标准更⾼15 2.3⽴场⼆:⿎励开放,边际⻛险的严谨证据仍相当有限19 2.4两种⽴场的异同点24 2.5争论之外的⽴场三:是否开源主要取决于商业考量25 2.6⼩结26 3开源vs闭源,是错误的⼆分法27 3.1不同于开源软件,开源AI的概念尚未得到清晰定义27 3.2从“完全开放”到“完全封闭”之间存在多种模型发布选项29 3.3基础模型安全性评测:开放vs封闭模型均显⽰出对各种攻击的脆弱性33 3.4AI研发机构治理评测:倾向于开放vs封闭模型的机构各有所⻓38 3.5负责任开源之⼀:促进开放发布从构建到使⽤的全流程负责任实践43 3.6负责任开源之⼆:在封闭发布中探索实现开源等效收益的替代⽅案49 3.7⼩结59 4对推动基础模型负责任开源的建议60 4.1基础模型研发机构60 4.2AI开源社区61 4.3AI治理、政策和⽴法专家62 4.4AI投资⽅和资助⽅63 4.5负责任开源的国际合作63 1各国积极发布基础模型相关政策,开源部分取向不同 我认为,如何监管开源⼈⼯智能,是短期内最重要的未解决问题。 ⸺加⾥·⻢库斯(GaryMarkus)4 各国在制定开源AI相关政策时,通常需要综合考虑促进创新⽣态、技术安全与可控性、隐私保护、知识产权、伦理与责任、国际合作与标准制定、市场竞争环境、教育与公众参与等多个⽅⾯,这些维度与各国各地区的战略考虑或监管取向相结合,共同组成了对于开源AI的治理政策框架。 欧盟、美国、英国、法国、中国和其他全球南⽅等国家和地区在开源AI的治理上,虽然都希望能平衡发展与安全,但整体监管取向和具体条款设计有所不同。 1.1欧盟《AI法案》创全球⾸部全⾯AI监管法,设独特开源豁免规定 2023年12⽉8⽇,欧盟就《AI法案》5达成协议,该法成为全球⾸部针对AI进⾏全⾯监管的法案。2024年2⽉2⽇,欧盟理事会常务代表委员会就《AI法案》进⾏表决,获得全票通过。2024年3⽉13⽇,欧洲议会以523票赞成、46票反对和49票弃权通过了《AI法案》,这标志着欧盟在AI技术的监管上⾛在了世界前列。接下来《AI法案》还需得到欧盟理事会的正式批准,但最艰难的⽴法阶段已经过去,距离最终出台仅⼀步之遥。 欧盟《AI法案》整体倾向于“监管优先”,但也⼒图平衡AI⻛险管控、保护中⼩企业。法案⾃2021年以来⼀直在制定中。⾃那时起,该技术已经发⽣了快速⽽显著的发展,该提案也经历了多次修订以跟上步伐。ChatGPT的出现引发了控制基础模型的⼀轮修订。谈判在2023年2⽉底达到⽩热化程度。法国、德国和意⼤利为了保护本国的开发者,试图削弱对基础模型的限制6。最后敲定的协议条款对被认为具有特别危险性的AI的使⽤做出了限制,但减轻了中 ⼩型公司和模型开源、开发的负担。