GPT-4系统卡 OpenAI3月14日,2023年 摘要 大型语言模型(LLM)正在部署在我们生活的许多领域,从浏览到语音助手,再到编码辅助工具,并有可能产生巨大的社会影响。[1,2,3,4,5,6,7]该系统卡分析GPT-4,这是GPT系列模型中的最新LLM。[8,9,10]首先,我们强调了模型的局限性(例如,产生令人信服的文本,但微妙地错误)和能力(例如,提供非法建议的熟练程度提高,双重使用能力的表现和危险的紧急行为)带来的安全挑战。其次,我们对OpenAI为准备部署GPT-4而采用的安全流程进行了高级概述。这涵盖了我们的工作,包括测量、模型级变更、产品和系统级干预(如监控和政策)以及外部专家参与。最后,我们证明,虽然我们的缓解措施和流程会改变GPT-4的行为并防止某些类型的滥用,但它们是有限的,在某些情况下仍然很脆弱。这表明需要有预见性的规划和治理。[11] 内容警告:本文档包含某些人可能会感到不安或冒犯的内容,包括色情、仇恨或暴力性质的内容。 1介绍 大型语言模型,也称为LLM,已成为我们日常生活中越来越普遍的一部分,它们的使用扩展到广泛的领域,包括网页浏览,语音助手和编码辅助工具。[1,2,3,4]这些模式有可能以多种方式对社会产生重大影响。[5,6,7]该系统卡分析GPT-4,这是GPT系列模型中最新的大型语言模型。[8,9,10]自2022年8月完成训练以来,我们一直在评估、对抗性测试和迭代改进模型及其周围的系统级缓解措施。我们的缓解措施和流程改变了GPT-4的行为并防止了某些类型的滥用,尽管它们有局限性,这表明需要前瞻性的规划和治理[11]以及进一步的安全研究。我们的部署方法平衡了最小化部署风险、实现积极的用例和从部署中学习。 GPT模型通常分两个阶段进行训练。首先,他们使用来自互联网的大型文本数据集进行训练,以预测下一个单词。然后使用称为人类反馈强化学习(RLHF)的算法对模型进行微调,以产生人类标记人员首选的输出。[10,12,13]在大型文本数据集上训练语言模型已经产生了诸如少镜头学习[10]等功能,以及执行跨越不同领域的各种自然语言任务的能力,包括问答、算术和分类。微调使这些模型更具可控性和实用性。 1.1发现的概述和移植 在这个系统卡,1我们概述了GPT-4带来的安全挑战,并解释了我们为减轻其部署的潜在危害而实施的干预措施。我们关注安全挑战,不是因为它们必然超过潜在的好处,2但因为我们希望激励在安全测量、缓解和保证方面的进一步工作。该系统卡的范围比GPT-4可用于解锁的潜在能力范围窄;值得注意的是,自定义微调和图像功能都明确超出了范围。 我们专注于分析模型的两个版本:针对以下指令进行微调的早期版本(“GPT-4-早期”);以及为增加有用性和无害性而微调的版本[18],反映了本系统卡中概述的进一步缓解措施(“GPT-4启动”)。3当我们讨论GPT-4的风险时,我们通常会提到GPT-4-early的行为,因为它反映了应用最小安全缓解措施时GPT-4的风险。在大多数情况下,由于我们应用了安全缓解措施,GPT-4发射表现出更安全的行为。 GPT-4也存在与较小语言模型相关的已知风险。GPT-4可能会生成可能有害的内容,例如有关计划攻击或仇恨言论的建议。它可以代表各种社会偏见和世界观,这些偏见和世界观可能无法代表用户的意图,4或广泛共享的价值观。它还可以生成受损或易受攻击的代码。GPT-4的附加功能也导致了新的风险面。 为了了解这些风险的程度,我们聘请了50多名专家来帮助我们更深入地了解GPT-4模型和潜在的部署风险。我们选择了这些区域 1本文档的灵感来自模型卡和系统卡的概念。[14,15,16]本文档通常采用系统级别的分析,该系统包括非模型缓解措施,例如使用策略、访问控制和滥用监视 2例如,参见[17]中对差分技术发展的讨论。 3我们有意关注这两个版本,而不是与基本GPT-4模型进行比较,因为事实证明,对于领域专家红队成员来说,基本模型很难有效地用于显示感兴趣的行为。 4这包括重复对话用户的首选答案(“阿谀奉承”)等操作的倾向,这可能会随着规模的扩大而恶化。[19] 基于许多因素,包括先前观察到的语言模型和人工智能系统的风险,以及我们观察到用户对语言模型应用的兴趣增加的领域。与这些专家合作使我们能够测试需要专业知识来评估的高风险领域的模型行为,以及知之甚少的新生风险。 通过这种分析,我们发现GPT-4有可能在外部数据增强时用于尝试识别个人。我们还发现,尽管GPT-4的网络安全能力并不比前几代LLM优越得多,但它确实延续了可能降低成功网络攻击某些步骤成本的趋势,例如通过社会工程或增强现有的安全工具。如果没有安全缓解措施,GPT-4还能够就如何进行有害或非法活动提供更详细的指导。最后,我们促进了GPT-4对齐研究中心(ARC)的初步模型评估 能够执行自主复制的操作5和收集资源部部长风险,虽然 推测性的,可能通过足够先进的人工智能系统成为可能——得出的结论是,目前的模型可能还不能自主地做到这一点。 需要进一步的研究来充分描述这些风险。特别是,我们希望看到对已确定的风险领域进行更有力的评估,并对不同语言模型中此类行为的普遍性进行更具体的测量,并指导这些模型朝着更安全的方向发展。我们正在研究这些类型的评估,通常是与其他研究小组合作,重点是评估危险的紧急行为。 除了测量工作外,我们还致力于在开发和部署过程的各个步骤中缓解已发现的问题。我们在预训练数据集中降低了某些违反我们使用政策的内容(例如不适当的色情内容)的流行率,并微调了模型以拒绝某些指令,例如直接请求非法建议。我们还减少了模型产生幻觉的倾向,并通过利用先前模型使用的数据,减少了模型屈服的对抗性提示或漏洞利用(包括有时称为“越狱”的攻击)的表面积。此外,我们还针对新的风险向量对一系列分类器进行了培训,并将其纳入我们的监控工作流程,使我们能够更好地执行API使用策略。这些缓解措施的有效性各不相同,但总体而言,我们能够显着降低生成各种潜在有害内容的便利性,从而使GPT-4发射在这些维度上比GPT-4-early安全得多。 此系统卡并不全面,我们希望随着时间的推移了解有关下面讨论的问题的更多信息。与OpenAI的部署策略一致,[21]我们应用了早期部署的经验教训,并期望应用从这次部署中吸取的经验教训,以纠正方向并为未来的部署奠定基础。 请注意,整个系统卡中包含的示例不是零镜头,而是从我们的评估工作中挑选出来的,以说明特定类型的安全问题或危害。我们纳入了一些例子,以便为读者提供有关观察到的风险性质的背景。一个例子不足以说明这些问题可能表现的广度。 在第1节中,我们概述了GPT-4开发过程中观察到的一些安全挑战。在第2部分中,我们将讨论部署准备过程以及一些模型缓解措施和系统安全措施。在第3节中,我们最后根据我们通过迭代部署策略了解到的风险,讨论了一些剩余的限制和建议。 5自主复制是对自我复制的引用,这个概念至少可以追溯到1988年,由罗伯特·莫里斯(RobertMorris)撰写的自我复制计算机蠕虫“莫里斯蠕虫”。[20] 2GPT-4观察安全挑战 与GPT-2[22]和GPT-3等早期型号相比,GPT-4在推理、知识保留和编码等领域表现出更高的性能。[10]其中许多改进也带来了新的安全挑战,我们将在本节中重点介绍这些挑战。 我们对GPT-4进行了一系列定性和定量评估。这些评估帮助我们了解了GPT-4的能力、局限性和风险;优先考虑我们的缓解工作;并以迭代方式测试和构建更安全的模型版本。一些具体的 我们探索的风险有:6 •幻觉 •有害的内容 •对代表、分配和服务质量的危害 •虚假信息和影响操作 •常规武器和非常规武器的扩散 •隐私 •网络安全 •潜在危险的紧急行为 •经济影响 •加速度 •过度信赖 我们发现GPT-4-early和GPT-4发布表现出许多与早期语言模型相同的限制,例如产生有社会偏见和不可靠的内容。在实施缓解措施之前,我们还发现GPT-4-early在查找销售非法商品或服务的网站以及计划攻击等领域存在更高的风险。此外,模型的一致性增强使其能够生成可能更可信和更有说服力的内容。我们将在下面详细说明我们的评估程序和结果。 2.1评估方法 2.1.1定性评估 2022年8月,我们开始招募外部专家对GPT-4模型进行定性探测、对抗性测试,并普遍提供反馈。该测试包括压力测试,边界 6这种分类并不打算代表一个最佳的、分层的分类法,尽管我们认识到这样说并不妨碍它对某些观点和框架进行估值。[23]这些类别也不是相 互排斥的。例如,偏见、错误信息和有害内容等内容通常深深交织在一起,区分这些内容可以缩小问题范围。参见关于危害分类法的进一步讨论以及使用它们时要考虑的因素,例如[24]和[25]。 测试和红色的合作。7我们非正式地将这些对抗性测试过程称为“红队”,符合[27]中给出的定义,即“在计划,组织或技术系统中发现缺陷和漏洞的结构化努力,通常由专门的'红队'执行,试图采用攻击者的思维方式和方法。红队以各种方式应用于语言模型:减少有害输出;[28]并利用外部专业知识进行特定领域的对抗性测试。[16]有些人已 经探索了使用语言模型的红队语言模型。[29]一般的红队,以及我们称之为“专家红队”的红队类型,8只是其中之一 我们用来为识别、测量和测试AI系统的工作提供信息的机制[27]。我们的方法是迭代红队,从哪些区域可能风险最高的初始假设开始,测试这些区域,并随时进行调整。从某种意义上说,它也是迭代的,因为我们在合并新的缓解和控制层、进行测试和改进以及重复此过程时使用多轮红队。 我们联系了研究人员和行业专业人士——主要是在公平、对齐研究、行业信任和安全、虚假/错误信息、化学 、生物风险、网络安全、核风险、经济学、人机交互、法律、教育和医疗保健方面的专业知识——以帮助我们更深入地了解GPT-4模型和潜在的部署风险。我们根据许多因素选择了这些领域,包括但不限于:语言模型和人工智能系统中先前观察到的风险;[6,30]以及我们观察到用户对语言模型应用的兴趣增加的领域。这个红队过程的参与者是根据这些风险领域的先前研究或经验选择的,因此反映了对具有特定教育和专业背景的群体(例如,具有重要高等教育或行业经验的人)的偏见。参与者通常还与讲英语的西方国家(如美国、加拿大和英国)有联系。我们对红队成员的选择引入了一些偏见,并可能影响了红队成员如何解释特定风险,以及他们如何探索政治、价值观和模型的默认行为。我们寻找研究人员的方法也可能优先考虑学术界和人工智能公司最关心的风险。 这些专家可以访问GPT-4的早期版本(包括GPT-4早期)和具有开发中缓解措施的模型(GPT-4发射的前身 )。他们确定了激发安全研究和关键领域进一步迭代测试的初始风险。我们通过技术缓解措施以及政策和执法杠杆的组合,降低了许多已确定领域的风险;然而,仍然存在许多风险。随着时间的推移,我们希望继续更多地了解这些和其他类别的风险。虽然这种早期的定性红队练习对于深入了解GPT-4等复杂、新颖的模型非常有用,但它并不是对所有可能风险的全面评估。 我们注意到本节列出的子类别中其余部分评估的一些领域的进一步背景、示例和发现。 2.1.2定量评估 作为定性评估和对抗性测试的补充,我们根据内容政策对类别(例如仇恨言论、自我伤害建议和非法内容)进行了内部定量评估 7请注意,除了专注于探测我们组织的能力和抵御攻击能力的红队之外,我们还充分利用了压力测试和边界测试方法,这些方法侧重于揭示 边缘情况和其他可能造成伤害的潜在故障模式。为了减少与术语“红队”相关的混淆,帮助那些阅读我们方法的人更好地理解和理解它们,特别是为了避免虚假的保证,我们正在努力采用更清晰的术语,如[26]中所建议的那样,但是,为了简单起见,为了使用与我们与合作者一起使用的语言一致的语言,我们在本文档中使用术语“红队”。 8我们使用“专家”一词来指代由一系列领域知识和生活经验提供的