您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[麻省理工学院未来技术研究所]:麻省理工(MIT)AI风险存储库报告:人工智能风险的综合性元评审、数据库和分类法 - 发现报告
当前位置:首页/行业研究/报告详情/

麻省理工(MIT)AI风险存储库报告:人工智能风险的综合性元评审、数据库和分类法

AI智能总结
查看更多
麻省理工(MIT)AI风险存储库报告:人工智能风险的综合性元评审、数据库和分类法

人工智能风险库:人工智能风险的全面元审查 、数据库和分类 彼得斯莱特里12AlexanderKSaeri12EmilyACGrundy12杰斯格雷厄姆3迈克尔诺特尔23RistoUuk4 5詹姆斯道6,索鲁什波尔6史蒂芬卡斯珀7,尼尔汤普森1 1麻省理工学院FutureTech,麻省理工学院2准备研究,3心理学系,昆士兰大学4生命未来研究所,5卢汶大学,6和谐智能7计算机科学与人工智能实验室,麻省理工学院。 致pslatmitedu。 摘要 人工智能(AI)带来的风险引起了学者、审计员、政策制定者、AI公司和公众的极大关注。然而,由于对AI风险缺乏共同的理解,这可能会阻碍我们全面讨论、研究和应对这些风险的能力。本文通过创建一个AI风险库来填补这一空白,作为共同参考框架。该库包含一个活数据库,其中提取了来自43个分类的777个风险,可以根据两个主要分类进行筛选,并通过我们的平台轻松访问、修改和更新。网站 并且在线电子表格我们通过系统性地审视人工智能风险的其他分类(如分类法和其他结构化分类 )以及专家咨询来构建我们的数据存储库。我们采用最佳拟合框架综合法来发展我们的人工智能风险分类法。我们的高级因果关系分类法将每个风险根据其特征进行分类。因果的因素(1)实体 :人类、人工智能;(2)意图性:有意、无意;(3)时间:部署前、部署后。我们中级人工智能风险领域分类将风险分为七个类别的人工智能风险。领域1歧视与毒性、2隐私与安全、3错误信息、4恶意行为者与滥用、5人机交互、6社会经济与环境、7人工智能系统安全 、故障与限制。这些进一步分为23个子领域。据我们所知,《人工智能风险库》是第一个严格整理、分析并提取人工智能风险框架,构建为一个公开可访问、全面、可扩展和分类的风险数据库。这为更协调、连贯和完整地定义、审计和管理人工智能系统带来的风险奠定了基础。 读者指南 这是一份长篇文档。以下是一些使用这份文档及其内容的方法。相关材料根据您的时间和兴趣而定。 两分钟接触 浏览普通语言摘要(第3页)。十分钟会议 阅读简明语言摘要(第3页)。 阅读《AI风险景观洞察》(第56页)及其对主要受众的影响(第57页)。政策制定者、模型评估员和审计员 阅读以下内容:简洁语言摘要第3页。浏览详细描述人工智能风险的领域第33页。阅读对人工智能风险景观的洞察(第56页)以及政策制定者和或审计师章节子部分对主要受众的影响第57页 研究人员 阅读以下内容:简洁语言摘要第3页。阅读图1第15页:理解我们用于识别相关文献和开发两种新型人工智能风险分类的方法;有关我们如何开发分类法的更详细信息,请参见最佳框架合成方法(第19页)。 阅读对人工智能风险景观的洞察(p56),并且学者小节对主要受众的影响第59页略读限制和未来研究方向(第60页)。 简洁语言摘要 人工智能(AI)带来的风险引起许多利益相关者的关注 许多研究者都试图对这些风险进行分类 现有的分类不协调且不一致 我们回顾并综合了之前的分类,以产生一个AI风险库,包括一篇论文、因果分类法、领域分类法、数据库和网站 据我们所知,这是首次严格地整理、分析和提取AI风险框架,并将其纳入一个公开可访问 、全面、可扩展和分类的风险数据库 人工智能(AI)带来的风险引起了许多利益相关者的广泛关注,包括政策制定者、专家、AI公司及公众。这些风险涉及多个领域,并以不同的方式表现出来:AI事件数据库现在包含超过3000个现实世界中AI系统导致或几乎导致损害的实例。 为了更清晰地概述这一复杂的风险组合,许多研究人员试图识别并对它们进行分组。在理论上,这些努力应该有助于简化复杂性、识别模式、突出差距,并促进有效的沟通和风险预防。在实践中,这些努力往往缺乏协调,其范围和重点各异,导致出现了许多相互冲突的分类系统。即使不同的分类系统使用类似的风险术语(例如,“隐私”)或关注类似的领域(例如,“存在风险”),它们也可能指代不一致的概念。因此,仍然难以全面理解人工智能风险的范围。 在本研究中,我们基于先前的努力,通过将多样化的观点整合到一个全面、统一的分类系统中,对人工智能风险进行分类。在这个过程中,我们意识到我们的结果包含两种类型的分类系统: 人工智能风险原因的高级别分类(例如,何时或为何发生人工智能风险)人工智能的中级危害或损害(例如,人工智能在有限的数据上训练或用于制造武器) 由于这些分类系统差异很大,统一它们变得很困难;高级风险类别,如“责任扩散”或“人类错误地创造了危险的AI”,无法对应到更狭窄的类别,如“滥用”或“噪声训练数据”,反之亦然。因此,我们决定创建两个不同的分类系统,这两个系统共同构成我们的统一分类系统。 我们生产的研究论文及其相关产品(即因果关系分类法、领域分类法、 活数据库并且网站提供一个清晰、易于理解的资源,用于理解和应对与人工智能相关的一系列风险。我们把这些产品称为人工智能风险库。 我们所做的 图A研究方法论概览 如图A所示,我们采用了一种系统的搜索策略,包括正向和反向搜索,以及专家咨询,以确定AI风险分类、框架和分类法。具体而言,我们搜索了多个学术数据库中的相关研究,并使用预定义的规则来确定哪些研究将包含在我们的总结中。接下来,我们咨询了专家(即所包含文件的作者),以建议我们应包括的其他研究。最后,我们回顾了i第一、第二阶段中确定的研究的参考文献,以及i i引用这些研究的论文,以寻找进一步的相关研究。 在完成此过程后,我们从43份文件中提取了关于777种不同风险的信息,包括引文和页码,并将 其纳入我们打算随时间更新的“动态”数据库中(见图B)。您可以观看关于该数据库的解释视频。此处 图B人工智能风险数据库的图像。 我们采用了“最佳拟合框架综合”方法来开发两个分类体系,以对这些风险进行分类。这涉及到从我们在搜索中确定的43个现有系统中选择最适合我们目的的分类系统,并使用这个系统来对数据库中的AI风险进行分类。当无法使用此系统对风险进行分类时,我们更新了现有类别,创建了新的类别,或改变了该系统的结构。我们重复这一过程,直到我们实现了一个能够有效编码数据库中风险的最终版本。 在编码过程中,我们运用了扎根理论方法来分析数据。因此,我们根据原始资料进行了风险的识别和编码,没有进行任何解释。基于此,我们的因果分类法实体所呈现的风险,意图和时机分类(见表A)。 表A人工智能风险因果分类学 类别 等级 描述 实体 人类人工智能其他 风险是由人类做出的决策或行动引起的。该风险是由人工智能系统做出的决策或行动引起的。风险是由其他原因引起的或是不明确的。 意图 有意为之无意其他 风险发生是因为追求目标预期结果的缘故。由于追求目标时出现意外结果而发生的风险风险被表述为在没有明确指出故意性的情况下发生。 时间安排 部署前部署后其他 风险发生在人工智能部署之前风险发生在AI模型经过训练并部署之后。风险发生的时间未明确指定。 我们的领域分类法将风险划分为七个领域,例如歧视、隐私和虚假信息。这些领域进一步分为23个风险子领域(见表B)。 表B人工智能风险领域分类 域名子域名 1歧视与毒性 11不公平的歧视和错误陈述 12暴露于有害内容 13各项表现不均衡群体 2隐私与安全 21隐私的妥协 获取、泄露或正确推断敏感信息 22人工智能系统安全漏洞并且攻击 3虚假信息 描述 人工智能对不同个体或群体存在不平等对待,通常基于种族、性别或其他敏感特征,导致不公平的结果和代表性。那些群体。 人工智能暴露用户于有害、虐待、不安全或不适当的内容。可能涉及提供建议或鼓励采取行动。有害内容示例包括仇恨言论、暴力、极端主义、非法行为或儿童性虐待材料,以及违反社区规范的内容,如粗俗和诽谤性内容。 政治演讲,或色情内容。 人工智能决策和行动的准确性与有效性取决于群体成员身份,其中人工智能系统设计中的决策和有偏差的训练数据会导致不平等的结果,减小的收益,增加的努力,以及用户的疏离。 AI系统会记忆并泄露敏感个人信息,或者未经个人同意推断出关于个人的隐私信息。意外或未经授权数据和信息共享可能损害用户对隐私的期望,协助身份盗用,或导致机密知识产权损失。 人工智能系统、软件开发工具链和硬件中的可利用漏洞,导致未经授权的访问、数据和隐私泄露。或者系统操纵导致不安全输出或行为。 31错误或误导性信息的人工智能系统无意间生成或传播错误或欺骗性信息,可能导致用户信念不准确,并削弱他们的自主性。人类基于错误信念做出的决策可能会遭受身体、情感或物质上的伤害。 32信息生态系统的污染极度个性化的AI生成虚假信息,形成“过滤泡”,导致个人只能看到与其现有信念相符的内容,从而削弱了共享共识现实的丧失现实与减弱的社会凝聚力以及政治过程。 4恶意行为者与滥用 41错误信息,监控,以及利用AI系统进行大规模错误信息传播、恶意监控或针对性及复杂的自动化审查与宣传。规模化的影响力旨在操纵政治过程、公众舆论和行为。 42网络攻击、武器开发利用人工智能系统开发网络武器(例如,通过编写更便宜、更有效的恶意软件),开发新型或改进现有武器(例如,致命自主武器)或者使用,并造成大规模损害武器或化学、生物、辐射、核武器及高当量爆炸物,或使用武器造成大规模伤害。 43欺诈、诈骗和针对性攻击操控 5人机交互 使用人工智能系统通过欺骗、欺诈、骗局、勒索或针对信念或行为的针对性操纵来赢得对他人的个人优势。例如包括AI辅助的学术或教育领域的剽窃、冒充受信任或虚假的个人以获取非法财务利益,或创造侮辱性的内容。性图像。 51过度依赖和不安全使用拟人化、信任或依赖AI系统,使用户产生情感或物质上的依赖,并导致与AI系统的不适当关系。 人工智能系统的预期。信任可能被恶意行为者(例如,为了收集信息或启用操纵)所利用,或者因不当行为而造成伤害。在关键情况(如医疗紧急情况)中使用人工智能。对人工智能系统的过度依赖可能会损害自主性并削弱社会联系。 域名子域名 52人类能动性的丧失自主权 6社会经济和环境危害 描述 将关键决策委托给人工智能系统,或由人工智能系统做出减少人类控制和自主性的决策。这两种情况都可能导致人类感到无力,失去塑造充实生活轨迹的能力,或变得认知能力下降。 61权力集中以及特定实体或群体内的不公平AI驱动权力和资源集中,尤其是那些能够访问或拥有强大AI系统的实体或群体,从而导致效益分配不公平的福利分配及增大的社会不平等。 62不平等加剧及下降趋势就业质量 63经济和文化贬值关于人力努力 64竞争动态 社会和经济不平等,由AI的广泛应用引起,例如自动化工作、降低就业质量或产生剥削性工人与其雇主之间的相互依赖关系。 人工智能系统通过复制人类创新或创造力(例如艺术、音乐、写作、编码、发明)来创造经济或文化价值。经济和社会系统因人力依赖而变得不稳定。AI生成内容的普遍性可能会导致对人类技能的欣赏度降低。 创意和知识型产业的破坏,以及文化体验的同质化。 人工智能开发者或类似国家行为体在人工智能“竞赛”中通过快速开发、部署和应用人工智能系统,以最大化战略或经济利益进行的竞争。优势,增加了他们发布不安全和易出错系统的风险。 65政府治理失败不完善的监管框架和监管机制,无法与人工智能的发展同步,导致治理无效和无能为力。适当管理人工智能风险。 66环境损害人工智能系统的开发和运营,这些系统通过数据中心的数据能耗或材料和碳足迹造成环境损害。与人工智能硬件相关。 7人工智能系统安全,故障与局限性 71AI追求其自身目标,在冲突的AI系统中行动,与伦理标准或人类目标或价值观相冲突,尤其是设计师或用户的目标。这些不一致的行为可能是与人类目标或价值观相关在设计和开发过程中由人类引入,例如通过奖励黑客攻击和目标泛化错误,可能会导致AI使用危险的行为。 能力,如操控、欺骗或情境意识,以寻求权力、自我扩散或实现其他目标。 72拥有危险的人工智能能力 AI系统,它们开发、获取或提供的能力