0 研究报告 生成AI的迅速崛起 评估安全和安保风险 ArdiJanjeva,AlexanderHarris,SarahMercer,AlexanderKasprzyk和AnnaGausen 2023年12月 关于CETaS2 Acknowledgements2 ExecutiveSummary3 Recommendations8 1.生成性导论AI11 1.1短暂的历史AI11 1.2的步伐变更13 1.3Methodology17 2.评估政治,数字和物理安全风险20 2.1政治安全21 2.2数字安全28 2.3Physical安全33 2.4称量恶意和偶然来源风险36 3.生成的AI和未来的智能能力:机遇和局限性43 3.1扩大调查工具箱:分析和总结43 3.2开源和商业模式:创新与风险管理52 4.治理、政策与监管55 4.1信令和报告56 4.2禁止和“红色”线'66 4.3立法的优点和缺点环境67 4.4全球治理68 4.5培训、指导和保障措施74 案例Studies77 案例研究1:OSINT总结77 案例研究2:合成数据Generation80 关于Authors84 封面和封底上使用的图像是由OpenAI的DALL-E2生成的。 关于CETaS 新兴技术与安全中心(CETaS)是位于英国国家数据科学和人工智能研究所AlanTuringInstitute的研究中心。该中心的任务是通过对新兴技术问题进行基于证据的跨学科研究,为英国的安全政策提供信息。在cetas.turing.ac.uk与CETaS联系。 这项研究得到了艾伦图灵研究所国防和安全计划的支持。本报告中表达的所有观点都是作者的观点,不一定代表艾伦图灵研究所或任何其他组织的观点。 Acknowledgements 作者希望感谢所有参加该项目研究采访或焦点小组的人;他们特别感谢AlenaFrankel,BertieVidgen,DavidC,RobertC和SamStockwell对本报告早期版本的宝贵反馈。 执行摘要 ThisCETaSResearchReportexaminestheimplicationsofgenerativeAIfornationalsecurity.Thefindingsandrecommendationsarebasedonacombinationofopenavailableliteratureandresearchinterviews withmorethan来自政府、学术界、工业界和民间社会的50位专家。据我们所知,这代表了英国关于生 成人工智能对国家安全影响的最全面的公开研究。 生成AI是一种AI形式,可以根据用户建议生成图像,音频和文本等内容。许多可能的生成AI用例被一些人视为彻底改变个人互动和企业运营方式的机会。然而,从国家安全的角度来看,生成人工智能增强人类生产力的形式代表了一个重大挑战,并代表了这种方式。技术正在不断延伸国家安全的界限. 生成AI带来的安全风险可以理解为增加预先存在的社会风险或构成全新的风险在大多数情况下,生成式人工智能适合前者:像虚假信息、欺诈和儿童性虐待材料这样的安全风险并不是生成式人工智能的新创造,而是通过技术在速度和规模上被放大,这样它们可能会伤害比以前更大的人口比例。 以这种方式理解国家安全形势应该可以抑制对所构成威胁的“前所未有”性质的不必要的歇斯底里 ,同时能够更有针对性地关注生成人工智能催化风险的威胁领域。 生成式AI还提供了在国家安全社区中使用的潜在机会。目前,生成式AI工具是太不可靠和容易出错,无法在国家安全的最高风险环境中信任。这意味着它们还没有准备好在需要制作decision或需要可解释性来满足问责制和监督要求。对于那些可能想要使用生成AI来破坏英国国家安全的人来说,不准确并不重要-如果大型语言模型(LLM)在生成deepfae或编写恶意软件方面表现不佳,攻击者的失败成本仍然很低。但是从防御的角度来看,类似的错误可能会导致严重的安全漏洞。用户过度信任LLM的倾向可能会导致。不愿挑战AI生成的输出. 从历史上看,国家安全和技术话语侧重于理解来自对手;着手造成伤害的团体或个人。但是,先进技术向更广泛的选民扩散,要求心态的转变来解释所有的生成AI可能构成国家安全风险的无意或偶然方式 。这可以在“不当AI”的可能实例范围中看到 采用'-定义为AI系统的不当和误导的实现和部署。在包括关键国家基础设施(CNI),公共服务,私营部门和个人“DIY”实验在内的环境中,担心错过生成AI浪潮的顶峰可能会使有关更高风险用例的判断蒙上阴影。 对于明确恶意生成AI用例,威胁可以理解为数字,物理和政治安全三大类之一。 数字安全 物理安全 政治安全 网络安全 激进化和恐怖主义 政治虚假信息和选举干预生成AI可能是一个力倍增器政治虚假信息。累积效应生成文本、图像、视频和音频将超过这些模式中的任何一种都可以单独产生的影响。Scale可以通过提高LLM的可用性、可靠性和成本效益来显著提高个性化通过更令人印象深刻的故事讲述和个性化的活动,可以达到新的令人信服水平。在选举前的几个小时或几天,识别和抹黑恶意AI启用的信息操作将是具有挑战性的。 通过减少所需的专业知识程度,生成AI可以帮助技术能力较弱的用户尝试 The个人现在可以与AI聊天机器人形成的个性化关系,部分原因是它们的持 小说 续可用性和 网络攻击技术,并不断提高其复 无限的耐心,可以改变 杂程度.尚不确定的是,生成人工智能是否会 激进化蓝图。然而,仍然有一个这个过程中明显的人为因素当前一代的生成AI 实现全新类型的网络攻击,即使是最 将 好的攻击者以前也不会意识到这一点 不太可能很快复制。 ——从国家安全的角度来看,这是最重要的长期问题。 关于恐怖分子企业生成AI的哪些阶段可能会增加的特异性很重要-对于某些群体来说,生成AI可能更有用荣耀than激进化. 目标和欺诈 武器指令 监视、监测和地缘政治分裂 欺诈者将从生成AI中受益匪浅。从质 The生成可公开访问但难以找到的 生成人工智能可以在促进全球技术扩 量上讲,生成AI可以帮助欺诈者看起 信息降低分离的程度 散方面发挥重要作用,这些技术坚持 来更专业, 信息对 专制标准和 高度有针对性的鱼叉网络钓鱼, 开发和执行一个 增加的负担 攻击计划。如果WebAPI允许将大型预 值,帮助尝试强制执行历史真相的单一版本Forfuturegeneration.DemocraciesmaybemorevulnerabletotheexploitationofthecreativecharacteristicsofgenerativeAIsystemsthan独裁oThisemphasisestheneedtounderstandthe文化和行为方面创成式AI使用在世界各地。 潜在受害者的复原力。从数量上讲, 训练模型连接到 自治的发展 物理系统,它们被允许在世界上采取直 代理框架可以启用大规模自动化欺诈企图.领域的改进语音克隆 接行动。尽管如此,在生化武器的背景下,有一个重大技术从促使聊天机器人飞跃到合成致命的 是一个特定的领域 材料,这限制了实用程序 在欺诈背景下的关注。 低技能的生成AIactors. 儿童性虐待材料AI产生的CSAM的扩散是执法机构的重大关切。区分的困难来自“假”图像的“真实”将继续增加,并构成挑战假阴性通过网络。同时,有一个假阳性执法部门调查未受到身体虐待的儿童形象的风险,将稀缺资源从这些谁有。 尽管它们在非常高风险的国家安全环境中不可靠性,但生成AI确实为国家安全和执法机构提供了各种机会。在情报分析背景下,生成AI的作用最好理解为提高个人生产力.使用生成AI作为“认知联合飞行员”横跨指导、收集、处理和传播情报周期的各个阶段可以缓解传统的挑战,这些挑战涉及“事实贫乏和意见丰富”的环境分析师在其中运作。尽管如此,仔细部署,涉及频繁的人工验证在成熟和熟悉的早期阶段至关重要。 自治代理人-人工实体,可以在没有人为干预的情况下感知环境,做出决定并采取行动-可能是内部的加速力 情报和安全背景,因为它们能够利用其他数据源进行额外的验证。从理论上讲,代理团队可用于快速处理大量开源数据,提供初步风险评估,并为人类分析师提供进一步探索的假设。但是,在基础LLM能够提供可靠(一致、正确和安全)和准确的响应之前,代理将在提供不可预测或错位结果的风险。应对这些挑战的关键缓解措施是问责制、透明度和人力监督代理采取的行动和系统执行的推断。 为了应对上述复杂的情况,各国政府必须制定具有三个主要目标的政策干预措施:创造更好的可视性和理解生成人工智能系统;促进最佳实践;并建立激励和执行监管。为政府和相关第三方行为者建立信号和报告机制,并在最高风险环境下(如关键国家基础设施内的决策)建立红线,是实现这些目标的重要方面。 信令 报告 红线 水印 披露和可解释性 多层次和社会技术评估 发布策略 抢占不应使用生 自动向AI生成的内容添加标签或不可见的水印是解决生成式AI-启用虚假信息。然而,对它的担忧仍然存在脆弱性 与AI检测工具相关的挑战更加强调披露何时使用生成AI,并发布有关适当使用的明确指南和滥用警告。更好的结果将是共同依赖可解释水平由系统和个人解释AI输出的能力提供. 要了解国家安全的全部影响,人工智能系统评估必须超越任何单个模型的能力。多层,系统的社会技术方法评价is需要了解人类互动和系统因素如何与生成模型的技术组 能力的快速增长可能意味着政策制定者对下一场改变游戏规则的创新准备不足。领先的AI开发人员最近承诺避免在没有政府机构事先测试的情况下发布模型,但这一过程必须开放和 成式AI的高风险环境将防止技术可以采取的情况不可逆未经人类直接监督或授权的行动. 故意篡改and 件相互作用,以放大不同的 透明足以确保公众对其 恶意行为者完全绕过它的能力。 类型的风险。 结论。 本报告的撰写恰逢2023年11月英国的AI安全峰会,同时宣布了由政府赞助的新AI安全研究所 ,以对最先进的AI模型进行安全测试。未来几个月对于确定新AI安全研究所的作用和范围以及英国更广泛地管理新兴AI风险的方法至关重要。 在国际层面,英国可以采取两项关键行动来缩小治理模式之间的现有差距:促进共享的评估工具和明确的目标;并促进国际监管专业知识和能力。新AI安全研究所的宣布是这方面的积极一步,但英国必须在以下三个核心领域取得飞跃:计算、数据和员工对值得信赖的LLM的研究需要来自不同学科的专家 ,包括语言学、计算机科学、认知心理学、网络安全和政策。 最后,实现这些全球治理目标需要最低程度的外交接触,这确保快速采用AI不会取代AI安全研究希望在人工智能安全方面发挥领导作用的国家必须避免破坏这项积极的工作,让对“落后”对手的恐惧通过高风险的应用推动竞争。 Recommendations AI系统评价 在人工智能安全峰会的积极势头的基础上,新的人工智能安全研究所应立即采取措施,建立一个世界领先的人工智能评估生态系统: o优先考虑系统评估的多层社会技术方法,以便除了治理和应用程序外,还审查新的系统特征。 o为生成AI模型和系统卡创建一个集中的寄存器,允许跨部门的决策者审查系统细节,并就其风险偏好和对设想用例的适用性做出明智的判断。 情报分析 如果生成人工智能要由英国国家安全社区进行操作部署,这些组织必须确保用户界面的设计包括关于输出准确性和可靠性的明确警告,从而最大限度地减少与过度信任或过度依赖相关的风险。 此外,应详细考虑在国家安全环境中使用LLM可能会如何影响保证和法律遵从性。LLM 的规模和不透明度意味着从其中清除信息可能比现有数据库更具挑战性-针对开发诸如“机器学习”之类的技术的研究资源可能有助于解决这一挑战。 自治代理人 LLM-authorizedagent-basedsystemscommittedtoperformautonomousa