彼得·斯莱特里1,2, Alexander K. Saeri 1,2 Emily A. C. Grundy 1,2, 杰斯·格雷厄姆3, 迈克尔·诺特尔2,3 Risto Uuk4,5詹姆斯·道6,索鲁什·波尔6, 史蒂芬·卡斯珀7,尼尔·汤普森1. 1麻省理工学院FutureTech,麻省理工学院2准备研究,3心理学系,昆士兰大学4生命未来研究所,5卢汶大学,6和谐智能7计算机科学与人工智能实验室,麻省理工学院。 致pslat@mit.edu。 摘要 人工智能(AI)带来的风险引起了学者、审计员、政策制定者、AI公司和公众的极大关注。然而,由于对AI风险缺乏共同的理解,这可能会阻碍我们全面讨论、研究和应对这些风险的能力。本文通过创建一个AI风险库来填补这一空白,作为共同参考框架。该库包含一个活数据库,其中提取了来自43个分类的777个风险,可以根据两个主要分类进行筛选,并通过我们的平台轻松访问、修改和更新。网站并且在线电子表格我们通过系统性地审视人工智能风险的其他分类(如分类法和其他结构化分类 )以及专家咨询来构建我们的数据存储库。我们采用最佳拟合框架综合法来发展我们的人工智能风险分类法。我们的高级因果关系分类法将每个风险根据其特征进行分类。因果的因素(1)实体:人类、人工智能;(2)意图性:有意、无意;(3)时间:部署前、部署后。我们中级人工智能风险领域分类将风险分为七个类别的人工智能风险。领域:(1) 歧视与毒性、(2) 隐私与安全、(3) 错误信息、(4) 恶意行为者与滥用、(5) 人机交互、(6) 社会经济与环境、(7) 人工智能系统安全、故障与限制。这些进一步分为23个子领域。据我们所知,《人工智能风险库》是第一个严格整理、分析并提取人工智能风险框架,构建为一个公开可访问、全面、可扩展和分类的风险数据库。这为更协调、连贯和完整地定义、审计和管理人工智能系统带来的风险奠定了基础。 读者指南 这是一份长篇文档。以下是一些使用这份文档及其内容的方法。相关材料根据您的时间和兴趣而定。 两分钟接触 浏览普通语言摘要(第3页)。 十分钟会议 阅读《AI风险景观洞察》(第56页)及其对主要受众的影响(第57页)。 政策制定者、模型评估员和审计员 阅读以下内容:简洁语言摘要(第3页)。浏览详细描述人工智能风险的领域(第33页)。阅读对人工智能风险景观的洞察(第56页)以及政策制定者和/或审计师章节子部分对主要受众的影响(第57页). 研究人员 阅读以下内容:简洁语言摘要(第3页)。阅读图1第15页:理解我们用于识别相关文献和开发两种新型人工智能风险分类的方法;有关我们如何开发分类法的更详细信息,请参见最佳框架合成方法(第19页)。 阅读对人工智能风险景观的洞察(p. 56),并且学者小节对主要受众的影响(第59页) 略读限制和未来研究方向(第60页)。 简洁语言摘要 ● 人工智能(AI)带来的风险引起许多利益相关者的关注● 许多研究者都试图对这些风险进行分类● 现有的分类不协调且不一致● 我们回顾并综合了之前的分类,以产生一个AI风险库,包括一篇论文、因果分类法、领域分类法、数据库和网站● 据我们所知,这是首次严格地整理、分析和提取AI风险框架,并将其纳入一个公开可访问、全面、可扩展和分类的风险数据库 人工智能(AI)带来的风险引起了许多利益相关者的广泛关注,包括政策制定者、专家、AI公司及公众。这些风险涉及多个领域,并以不同的方式表现出来:AI事件数据库现在包含超过3000个现实世界中AI系统导致或几乎导致损害的实例。 为了更清晰地概述这一复杂的风险组合,许多研究人员试图识别并对它们进行分组。在理论上,这些努力应该有助于简化复杂性、识别模式、突出差距,并促进有效的沟通和风险预防。在实践中,这些努力往往缺乏协调,其范围和重点各异,导致出现了许多相互冲突的分类系统。即使不同的分类系统使用类似的风险术语(例如,“隐私”)或关注类似的领域(例如,“存在风险”),它们也可能指代不一致的概念。因此,仍然难以全面理解人工智能风险的范围。 在本研究中,我们基于先前的努力,通过将多样化的观点整合到一个全面、统一的分类系统中,对人工智能风险进行分类。在这个过程中,我们意识到我们的结果包含两种类型的分类系统: ● 人工智能风险原因的高级别分类(例如,何时或为何发生人工智能风险)● 人工智能的中级危害或损害(例如,人工智能在有限的数据上训练或用于制造武器) 由于这些分类系统差异很大,统一它们变得很困难;高级风险类别,如“责任扩散”或“人类错误地创造了危险的AI”,无法对应到更狭窄的类别,如“滥用”或“噪声训练数据”,反之亦然。因此,我们决定创建两个不同的分类系统,这两个系统共同构成我们的统一分类系统。 我们生产的研究论文及其相关产品(即因果关系分类法、领域分类法、活数据库并且网站) 提供一个清晰、易于理解的资源,用于理解和应对与人工智能相关的一系列风险。我们把这些产品称为人工智能风险库。 我们所做的 图A. 研究方法论概览 如图A所示,我们采用了一种系统的搜索策略,包括正向和反向搜索,以及专家咨询,以确定AI风险分类、框架和分类法。具体而言,我们搜索了多个学术数据库中的相关研究,并使用预定义的规则来确定哪些研究将包含在我们的总结中。接下来,我们咨询了专家(即所包含文件的作者),以建议我们应包括的其他研究。最后,我们回顾了i) 第一、第二阶段中确定的研究的参考文献,以及ii) 引用这些研究的论文,以寻找进一步的相关研究。 在完成此过程后,我们从43份文件中提取了关于777种不同风险的信息,包括引文和页码,并将其纳入我们打算随时间更新的“动态”数据库中(见图B)。您可以观看关于该数据库的解释视频。此处. 图B. 人工智能风险数据库的图像。 我们采用了“最佳拟合框架综合”方法来开发两个分类体系,以对这些风险进行分类。这涉及到从我们在搜索中确定的43个现有系统中选择最适合我们目的的分类系统,并使用这个系统来对数据库中的AI风险进行分类。当无法使用此系统对风险进行分类时,我们更新了现有类别,创建了新的类别,或改变了该系统的结构。我们重复这一过程,直到我们实现了一个能够有效编码数据库中风险的最终版本。 在编码过程中,我们运用了扎根理论方法来分析数据。因此,我们根据原始资料进行了风险的识别和编码,没有进行任何解释。基于此,我们的因果分类法实体所呈现的风险,意图和时机分类(见表A)。 我们的领域分类法将风险划分为七个领域,例如歧视、隐私和虚假信息。这些领域进一步分为23个风险子领域(见表B)。 我们发现 如表C所示,大部分风险(51%)被表示为由人工智能系统而非人类引起(34%),并且是在人工智能模型训练和部署后出现(65%)而非之前(10%)。类似的比例的风险被表示为目的性(35%)和非目的性(37%)。 如表D所示,在之前的文件中覆盖最多的风险领域包括: ● 人工智能系统安全性、故障与局限性 - 在76%的文件中有所涉及。● 社会经济与环境危害 - 在73%的文件中有所涉及。● 歧视与毒性 - 在71%的文件中有所涉及。 人与计算机交互(41%)和虚假信息(44%)讨论得较少。 无文档讨论了所有23个子域的风险;最高覆盖率为23个子域中的16个(70%;Gabriel等,2024年)。平均而言,文档提到了23个子域中的7个(34%)的人工智能风险子域,提及的数量范围在2到16个子域之间。请参阅论文正文中的第9表,以获取按论文分拆的子域覆盖率的详细分解。 一些风险子域被讨论的频率远高于其他,例如: ● 不公平的歧视和误导(8%的风险)。● 人工智能在冲突中追求自身目标,与人类的目标或价值观相悖(8%的风险)。● 缺乏能力或稳健性(9%的风险)。 某些风险子域相对较少被探索,例如: ● 人工智能福利与权利(风险占比<1%)。● 信息生态系统的污染和共识现实的丧失(风险占比1%)。● 竞争动态(风险占比1%)。 如何使用AI风险仓库 我们的数据库是免费的复制并且使用.The因果和领域分类法可用于分别为了过滤此数据库以识别特定风险,例如,那些专注于发生风险的情况。预部署或部署后或与特定风险领域相关,例如M 信息. The因果和领域分类法可用于一起了解每个因果因素(即)实体,意图并且时间)与每个风险域或子域相关。例如,用户可以筛选歧视与毒性风险和使用因果滤波器以识别有意为之并且无意中这种风险的不同来源的变体。同样,他们可以在考察歧视与毒性AI在训练过程中基于有 害内容的潜在风险预部署并且那些研究人工智能无意中造成伤害的地方部署后通过展示有毒内容。 我们下面讨论一些额外的用例;更多细节请参阅完整论文。 ● 一般:○ 在AI领域培训新员工的潜在风险。 ○ 为复杂项目打下基础。 ○ 通知狭窄或更具体的分类法(例如,系统性风险,或与欧盟相关的错误信息风险)的开发。 ○ 利用分类法进行优先排序(例如,使用专家评分),综合(例如,用于综述)或比较(例如,探讨跨领域的公众关注)。 ○ 识别代表性不足的领域(例如,AI福利和权利)。 ● 特定: ○ 政策制定者:法规和共享标准制定。 ○ 审计师:开发人工智能系统审计和标准。 ○ 学者:识别研究差距,并开发教育和培训。 ○ 企业:内部评估和准备风险,并制定相关策略、教育和培训。 如何参与 ● 通过我们的资源库访问网站:airisk.mit.edu● 使用此表提供反馈、建议缺失的资源或风险,或进行联系。 目录表 1234891011131415161619192021222323232427282930334748495252545556565657575858595911结果讨论摘要读者指南简洁语言摘要我们所做的我们发现如何使用AI风险仓库如何参与目录表表格目录和表格引言方法系统文献检索搜索策略提取至活人工智能风险数据库最佳匹配框架合成方法为什么我们开发了两种人工智能风险的分类法高级人工智能风险因果分类法的发展开发人工智能风险中级域分类法编码系统文献检索文档包含的特征人工智能风险的因果关系分类法最常见的AI风险成因因果因素分析:由所包含文件对人工智能风险的考察人工智能风险领域分类详细描述人工智能风险的领域人工智能风险最常见的领域人工智能风险领域由所包含的文件进行考察。由包含文档审查的人工智能风险子域融合因果关系和领域分类法最常见的每个AI风险领域的因果因素实体X意图因果关系按AI风险每个领域分类对“人工智能风险景观”的洞察从人工智能风险数据库及所包含的文件中获得的见解因果分类法的见解领域分类的洞见对主要受众的影响政策制定者审计师学者行业 限制和未来研究方向60 审查与编码60 数据库与分类学60 其他未来研究机会61 结论61 附录63附录A:因果分类和领域分类的迭代发展63次迭代以开发人工智能风险的因果分类法63次迭代以 开发人工智能风险领域分类法66 附录B:包含文档的特征69声明73 参考文献73 表格目录和表格 图A. 研究方法论概览4图B. 人工智能风险数据库的图像。4 表A. 人工智能风险因果分类学5 表B. 人工智能风险领域分类6 表C. 使用因果分类法编码的人工智能风险数据库:实体、意图、时间8表D. 使用领域分类编码的AI风险数据库9 图1. 研究方法概述15 图2.最佳拟合框架综合方法步骤20 图3. 系统文献检索和筛选的PRISMA流 程图24 表 1. 20篇最被引用的关于呈现人工智能风险分类法或分类的文献26 表2. 人工智能风险因果关系分类27 表3. 使用因果分类法编码的人工智能风险数据库:实体、意图、时间28 表 4. 使用因果分类编码的人工智能风险数据库:实体 x 意图 x 时间28 表5. 使用因果分类法编码的包括文档第29表 6. 人工智能风险领域分类31 表7. 域分类编码的AI风险数据库47 表8. 使用领域分类编码的包含文件48 表9. 使用子领域分类法编