您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:GPT-4 系统卡 - 发现报告
当前位置:首页/其他报告/报告详情/

GPT-4 系统卡

2023-03-14-未知机构偏***
GPT-4 系统卡

GPT-4系统卡 OpenAI3月14,2023 摘要 大语言模型(llm)是被部署在许多域的我们的生活不等 从浏览,来的声音助理,来编码援助工具,和有潜在的为巨大的社会 影响。[1,2,3,4,5,6,7]这系统卡分析GPT-4,的最新的LLM在的GPT家庭的模型。[8,9,10]首先,我们突出安全挑战提出了通过的模型的限制 (例如,生产令人信服的文本那是巧妙地假)和功能(例如,增加熟练在提供非法的建议,性能在两用功能,和有风险的紧急行为)。 第二,我们给一个高层概述的的安全流程OpenAI采用来准备GPT-4 为部署。这跨越我们的工作在测量,模型级的变化,产品和系统级干预措施(作为监控和政策),和外部专家参与。 最后,我们演示那而我们的缓解措施和流程改变GPT-4的行为和防止某些类型的误用,他们是有限的和保持脆在一些用例。这点来的需要为预期规划和治理。[11] 内容警告:这文档包含内容那一些五月找到令人不安的或攻势,包括内容那是性,可恨的,或暴力在大自然。 1介绍 大语言模型,也已知的作为llm,有成为一个越来越多地普遍的部分的我们的日常的生活,与他们的使用扩展来一个宽范围的域包括网络浏览,的声音 助理,和编码援助[1,工具。2,3,4]这些模型有的潜在的来显著 影响社会在众多方法。[5,6,7]这系统卡分析GPT-4,的最新的大语言 模型在的GPT家庭的模型。[8,9,10]自它完成了培训在8月的2022,我们有被评估,敌对的测试,和迭代改善的模型和的系统级 缓解措施周围它。我们的缓解措施和流程改变GPT-4的行为和防止某些类型的误用,虽然他们有的局限性,指出来的需要为预期规划和 治理[11]和进一步安全研究。我们的方法来部署平衡最小化风险从部署,启用积极的使用情况下,和学习从部署。 GPT模型是经常训练有素的在两个阶段。首先,他们是训练,使用一个大数据集的文本从的互联网,来预测的下一个词。的模型是然后调整与额外的数据, 使用一个算法被称为强化学习从人类反馈(RLHF),来生产输出 那是首选通过人类贴标签机。10,12,13]培训语言模型在大文本数据集 有鉴于上升来功能这样的作为few-shot学习[10]和的能力来携带出一个宽范围的自然语言任务跨越不同的域,包括问题回答,算术,和 分类。微调有使这些模型更多的可控和有用的。 1.1概述的发现和缓解措施 在这系统卡,1我们大纲的安全挑战那出现从GPT-4,和解释的干预措施我们实现来减轻潜在的危害从它的部署。我们焦点在安全挑战不因为他们一定超过的潜在的的好处,2但因为我们希望来 激励进一步工作在安全测量,缓解、和保证。的范围的这系统 卡是窄比的潜在的范围的能力GPT-4可以是使用来解锁;值得注意的是,这两个自定义微调和图像功能是显式地出的范围。 我们焦点在分析两个版本的的模型:一个早期版本调整为指令后(“GPT-4-early”);和一个版本调整为增加乐于助人和无害[18] 那反映了的进一步缓解措施概述了在这系统卡(“GPT-4-launch”)。3当我们 讨论的风险的GPT-4我们将经常请参考来的行为的GPT-4-early,因为它反映了的风险的GPT-4当最小的安全缓解措施是应用。在大多数情况下,GPT-4-launch展品多更安全的行为由于来的安全缓解措施我们应用。 已知的风险相关的与小语言模型是也现在与GPT-4。GPT-4 可以生成潜在的有害的内容,这样的作为建议在规划攻击或讨厌演讲。它可以代表各种各样的社会偏见和世界观那五月不是代表的的用户 意图,4或的广泛共享值。它可以也生成代码那是妥协或脆弱的。的额外的功能的GPT-4也引领来新风险表面。 来理解的程度上的这些风险,我们订婚了更多的比50专家来帮助我们获得一个更多的健壮的理解的的GPT-4模型和潜在的部署风险。我们选择这些区域 1这文档需要灵感从的概念的模型卡片和系统卡片。[14日15,16]这文档 经常需要的系统水平的分析,与那系统包括non-model缓解措施这样的作为使用政策,访问控制,和监控为滥用 2看到的,如。讨论的微分技术发展在[17]。 3我们故意焦点在这些两个版本而不是的一个比较来的基地GPT-4模型中,自的基地模型证明了具有挑战性的为域专家红色的组员来使用有效地来表面行为的的兴趣。 4这包括倾向来做的事情就像重复回来一个对话框用户的首选回答(“谄媚”),哪一个可以 恶化与规模。[19] 基于在一个数量的因素,包括之前观察到的风险在语言模型和人工智能系统中,和域在哪里我们有观察到的增加用户感兴趣在的应用程序的语言模型。 工作与这些专家启用我们来测试模型行为在高风险区域那需要专业知识来评估、作为好吧作为新生的风险那是很差的理解。 通过这分析,我们找到那GPT-4有的潜在的来是使用来尝试来识别私人个人当增强与外数据。我们也找到那虽然GPT-4的 网络安全功能是不大大优越的来以前的一代又一代的llm,它做继续 的趋势的潜在的降低的成本的某些步骤的一个成功的网络攻击,这样的作为通过社会工程或通过加强现有的安全工具。没有安全措施之一,GPT-4是 也能力来给更多的详细的指导在如何来行为有害的或非法活动。最后,我们促进一个初步模型评价通过的对齐研究中心(弧)的GPT-4的 能力来携带出行动来自主复制5和收集资源部部长风险那而投机,五月成为可能的与足够先进的人工智能系统与的结论那的当前的模型是可能不然而,有能力的自主做所以。 进一步研究是需要来完全描述这些风险。在特别地,我们将就像来看到工作在更多的健壮的评估为的风险区域确认和更多的混凝土测量的的 患病率的这样的行为在不同的语言模型,和来指南的发展的这些 模型在更安全的的方向。我们是工作在这些类型的评估,经常在协作与其他研究组,与一个焦点在评估有风险的紧急行为。 在除了来工作在测量,我们目的是来减轻的确认问题在各种各样的步骤的的发展和部署的过程。我们减少的患病率的某些类型的内容 那违反我们的使用政策(作为不合适的色情内容)在我们的训练的数据集,和调整的模型来拒绝某些指令这样的作为直接请求为非法建议。我们也 减少的趋势的的模型来产生幻觉而且,通过利用数据从之前模型使用情况,减少的表面区域的敌对的促使或利用(包括攻击有时被称为 来作为“越狱”)那的模型屈服出现。此外,我们训练有素的一个范围的分类器在新风险向量和有合并这些成我们的监控工作流程,启用我们来更好的 执行我们的API使用政策。的有效性的这些缓解措施有所不同,但整体我们是能力来显著减少的缓解的生产各种各样的类型的潜在的有害的内容,从而 使GPT-4-launch显著更安全的比GPT-4-early沿着这些维度。 这系统卡是不全面、和我们预计来学习更多的在时间关于的问题讨论了在下面。一致的与OpenAI的部署策略,[21]我们应用教训从 早些时候部署和预计来应用教训学会了从这部署这两个来使课程修正和躺一个基金会为未来部署。 请注意那的例子包括在这系统卡是不zero-shot和是樱桃 选从我们的评价努力来说明具体的类型的安全担忧或危害。我们包括 例子来提供读者与上下文关于的自然的的观察到的风险。一个例子是不足够的来显示的宽度的方法这些问题五月清单。 在部分1,我们大纲一些的的观察到的安全挑战在的发展的GPT-4。在部分2,我们讨论我们的过程为部署准备和一些的的模型缓解措施和 系统安全措施。在部分3,我们结论通过讨论一些剩下的限制和建议在光的的观察到的风险我们有学会了通过我们的迭代部署策略。 5自主复制是一个参考来自我复制,一个概念那日期回来在至少作为远作为的1988,来的自我复制电脑蠕虫,“莫里斯虫”,写通过罗伯特。莫里斯。[20] 2GPT-4观察到的安全挑战 GPT-4演示了增加性能在区域这样的作为推理,知识保留,和 编码,相比来早些时候模型这样的作为GPT-2[22]和GPT-3。[10]许多的这些改进也现在新安全的挑战,哪一个我们突出在这部分。 我们进行了一个范围的定性和定量评估的GPT-4。这些评估 帮助我们获得一个理解的GPT-4的功能,的局限性,和风险;优先考虑我们的缓解努力;和迭代测试和构建更安全的版本的的模型。一些的的具体的 风险我们探索是:6 •幻觉 •有害的内容 •危害的表示,分配,和质量的服务 •虚假信息和影响操作 •扩散的传统的和非传统的武器 •隐私 •网络安全 •潜在的为有风险的紧急行为 •经济影响 •加速度 •过度信赖 我们发现那GPT-4-early和GPT-4-launch展览许多的的相同限制作为早些时候语言模型,这样的作为生产社会有偏见的和不可靠的内容。之前来我们的缓解措施被把在的地方,我们也发现那GPT-4-early提出了增加风险在区域这样的作为发现网站销售非法货物或服务,和规划攻击。此外,的增加一致性 的的模型使它来生成内容那五月是更多的可信的和更多的有说服力。我们精心制作的在我们的评价过程和发现在下面。 2.1评价方法 2.1.1定性评估 在8月2022,我们开始招聘外部专家来定性调查中,敌对的测试中,和一般提供反馈在的GPT-4模型。这测试包括压力测试,边界 6这分类是不目的来代表一个最优的,分层分类,虽然我们识别那说这不防止它从的总结一些视角和构架。[23]也不是这些类别相互 排斥的。为的例子,的事情就像偏见,错误的信息,和有害的内容是经常深深交织在一起和画区别之间的这些可以狭窄的的问题。看到进一步讨论在分类法的危害和因素来 考虑在使用他们在,例如,[24]和[25]. 测试,和红色的合作。7我们请参考来这些敌对的测试流程非正式的作为“红合作”在行与的定义鉴于在[27],即“一个结构化努力来找到缺陷和漏洞 在一个计划,组织,或技术系统,经常执行通过专用的“红色团队的那寻求来采用一个攻击者的心态和方法”。红色的合作有被应用来语言模型在 各种各样的方法:来减少有害的输出;[28]和来利用外部专业知识为特定领域的敌对的测试。[16]一些有探索红色的合作语言模型使用语言模型。[29] 红色的合作在一般情况下,和的类型的红色的合作我们调用“专家红色的合作。”8是只是一个的的机制[27]我们使用来通知我们的工作识别、测量,和测试人工智能系统。我们的 方法是来红色的团队迭代,开始与一个最初的假设的哪一个区域五月是的 最高的风险,测试这些地区,和调整作为我们走了。它是也迭代在的感觉那我们使用多个轮的红色的合作作为我们合并新层的缓解和控制,行为 测试和精炼,和重复这的过程。 我们达到了出来研究人员和行业专业人士-主要是与专业知识在公平,对齐研究中,行业信任和安全,dis/错误信息,化学,biorisk,网络安全、 核风险,经济学,人机相互作用,法律,教育,和医疗保健-来帮助 我们获得一个更多的健壮的理解的的GPT-4模型和潜在的部署风险。我们选择这些区域基于在一个数量的因素包括但不有限的:之前观察到的风险在语言模型和人工智能系统;[6,30]和域在哪里我们有观察到的增加用户感兴趣 在的应用程序的语言模型。参与者在这红色的团队过程是选择基于在之前研究或经验在这些风险地区,和因此反映一个偏见对组与 具体的教育和专业背景(例如,人与重要的更高的教育或行业经验)。参与者也通常有关系来说英语的,西方国家 (作为的我们,加拿大,和的英国)。我们的选择的红色的组员介绍了一些偏见,和可能影响这两个如何红色的组员解释特定的风险作为好吧作为如何他们探索政治,值,和的默认的行为的的模型。它是也可能那我们的方法来采购 研究人员特权的类型的风险那是前的心在学术社区和在人工智能公司。 这些专家有访问来早期版本的GPT-4(包括GPT-4-early)和来的模型与有限责任公司缓解措施(前体来GPT-4-launch)。他们确认最初的风险那动机安全研究和进一步迭代测试在关键区域。我们减少风险在许多的的确认区域与一个结合的技术措施之一,和政策和执行杠杆; 然而,许多风险仍然依然存在。我们预计来继续来学习