GPT-4技术报告 OpenAI∗ Abstract 我们报告了GPT-4的开发,GPT-4是一种大规模的多模式模型,可以接受图像和文本输入并产生文本输出。虽然在许多现实世界的场景中,GPT-4的能力不如人类,但它在各种专业和学术基准测试中表现出人类水平的表现,包括通过模拟律师考试,成绩约为考生的前10 %。GPT-4是基于变换器的模型,其被预先训练以预测文档中的下一个令牌。训练后对齐过程导致在真实性和对期望行为的依从性的度量上的改进的性能。该项目的核心组成部分是开发基础设施和优化方法,这些方法在各种规模上都可以预测。这使我们能够根据不超过GPT -4计算量的1/1,000的模型来准确预测GPT-4性能的某些方面。 1Introduction 本技术报告介绍了GPT-4,这是一种大型多模式模型,能够处理图像和文本输入并生成文本输出。这些模型是一个重要的研究领域,因为它们有可能在广泛的应用中使用,例如对话系统,文本摘要和机器翻译。因此,近年来,它们一直是人们非常感兴趣和取得进展的主题[1-28]。 开发此类模型的主要目标之一是提高他们理解和生成自然语言文本的能力,特别是在更复杂和微妙的场景中。为了测试其在这种情况下的能力,GPT-4在最初为人类设计的各种考试中进行了评估。在这些评估中,它的表现非常出色,并且通常超过绝大多数人类考生。例如,在模拟的酒吧考试中,GPT-4的得分落在应试者的前10%。这与GPT-3.5形成对比,GPT-3.5得分最低10%。 在一套传统的NLP基准测试中,GPT-4的性能优于以前的大型语言模型和大多数最先进的系统(通常具有特定于基准的培训或手工工程)。在MMLU基准测试[29,30]上,这是一套涵盖57个科目的英语选择题,GPT-4不仅在英语方面的表现明显优于现有模型,而且在其他语言方面也表现出了出色的表现。在MMLU的翻译变体上 ,GPT-4在所考虑的26种语言中有24种超过了英语的最新水平。我们将在后面的章节中更详细地讨论这些模型功能结果以及模型安全性改进和结果。 本报告还讨论了该项目的一个关键挑战,即开发深度学习基础设施和优化方法,这些方法在各种规模上都具有可预测的行为。这使我们能够预测GPT-4的预期性能(基于以类似方式训练的小规模运行),并针对最终运行进行了测试 ,以增加对我们培训的信心。 尽管它的功能,GPT-4有类似的限制,早期的GPT模型[1,31,32]:它是不完全可靠的(例如,可以从“幻觉”遭受),具有有限的上下文窗口,并且不学习 ∗请将这项工作称为“OpenAI(2023)”。完整的作者贡献声明出现在文档的末尾。 当使用GPT-4的输出时,特别是在可靠性很重要的情况下,应该小心。 GPT-4的功能和局限性带来了重大而新颖的安全性挑战,鉴于潜在的社会影响,我们相信对这些挑战的仔细研究是重要的研究领域。本报告包括一个广泛的系统卡(在附录之后),描述了我们预见的一些风险,包括偏见 ,虚假信息,过度依赖,隐私,网络安全,扩散等。它还描述了我们为减轻GPT-4部署带来的潜在危害而采取的干预措施,包括与领域专家进行的对抗性测试以及模型辅助的安全管道。 2本技术报告的范围和限制 本报告重点介绍GPT-4的功能、局限性和安全特性。GPT-4是一种变压器式模型[33],使用公开可用的数据(如互联网数据)和第三方提供商许可的数据,预先训练以预测文档中的下一个令牌。然后使用人类反馈强化学习(RLHF)对模型进行微调[34]。考虑到GPT-4等大型模型的竞争格局和安全影响,本报告不包含有关架构(包括模型大小),硬件,训练计算,数据集构建,训练方法或类似内容的更多详细信息 。 我们致力于对我们的技术进行独立审核,并在本版本随附的系统卡中分享了该领域的一些初步步骤和想法。2我们计划向其他第三方提供进一步的技术细节,他们可以就如何权衡上述竞争和安全考虑与进一步透明度的科学价值提供建议。 3可预测的缩放 GPT-4项目的一大重点是构建一个可预测扩展的深度学习堆栈。主要原因是,对于像GPT-4这样的非常大的训练运行,进行广泛的特定于模型的调整是不可行的。为了解决这个问题,我们开发了基础设施和优化方法 ,它们在多个尺度上具有非常可预测的行为。这些改进使我们能够可靠地从使用训练的较小模型预测GPT-4性能的某些方面1,000×– 10,000×更少的计算。 3.1损失预测 正确训练的大型语言模型的最终损失被认为在用于训练模型的计算量中由幂律很好地近似[35,36,2,14,15]。 为了验证我们的优化基础设施的可扩展性,我们预测了GPT-4在我们的内部代码库(不是训练集的一部分)上的最终损失,方法是用不可约损失项拟合缩放定律(如Henighan等人[15]):L(C)=aCb+c,来自使用相同方法训练的模型,但使用的计算量最多比GPT-4少10,000x。此预测是在运行开始后不久进行的,不使用任何部分结果。拟合的比例定律预测GPT-4的最终损失具有很高的准确性(图1)。 3.2HumanEval能力的扩展 在训练之前了解模型的功能可以改善围绕对齐、安全和部署的决策。除了预测最终损失外,我们还开发了方法来预测更多可解释的能力指标。一个这样的指标是HmaEval数据集的通过率[37],它衡量合成不同复杂性的Pytho函数的能力。我们通过从训练的模型中进行外推,成功地预测了HmaEval数据集子集的通过率。 最多1,000×更少的计算(图2)。 ForanindividualprobleminHumanEval,performancemayoccasionallyworsenwithscale.Despitethesechallenges,wefindanapproximatepowerlawrelationship−EP[日志(通过_费率(C))]=α∗C−k 除了附带的系统卡,OpenAI将很快发布关于AI系统的社会和经济影响的其他想法,包括有效监管的必要性。 OpenAI代码库下一个字预测 100p10n1µ100µ0.011 计算 观察到预测gpt-4 每字6.0位 5.0 4.0 3.0 2.0 1.0 图1.GPT-4和更小型号的性能。该指标是从我们的内部代码库派生的数据集上的最终损失。这是一个方便的大型代码令牌数据集,不包含在训练集中。我们选择关注损失,因为在不同数量的训练计算中,它往往比其他措施噪音更小。较小模型(不包括GPT-4)的幂律拟合显示为虚线;该拟合准确地预测GPT-4的最终损失。X轴是归一化的训练计算,使得GPT-4为1。 23个编码问题的能力预测 观察到预测gpt-4 -平均对数通过率5 4 3 2 1 0 1µ10µ100µ0.0010.010.11 计算 图2.GPT-4和较小模型的性能。该指标是HumanEval数据集子集上的平均对数通过率。拟合到较小模型(不包括GPT -4)的幂律显示为虚线;此拟合准确预测GPT-4的性能。x轴是训练计算归一化,因此GPT-4为1。 在哪里kandα是正常数,并且P是数据集中问题的子集。我们假设这种关系适用于该数据集中的所有问题。实际上,很难或不可能估计非常低的通过率,因此我们仅限于问题P和模型M这样,给定一些大样本预算,每个问题至少被每个模型解决一次。 WeregistredpredictionsforGPT-4’sperformanceonHumanEvalbeforetrainingcompleted,usingonlyinformationavailablepriortotraining.Allbutthe15hardestHumanEvalproblemsweresplitinto6hightybucketsbasedontheperformance3rd最简单的桶如图2所示,表明结果预测对于HumanEval问题的这个子集非常准确,我们可以准确地估计日志(通过_rate)对于几个较小的模型。对其他五个桶的预测几乎表现良好,主要例外是GPT-4低于我们对最简单桶的预测。 某些功能仍然难以预测。例如,逆缩放奖[38]提出了几个任务,模型性能随规模的变化而下降。与Wei等人 [39]的最新结果类似,我们发现GPT-4逆转了这一趋势,如图3中一个名为HindsightNeglect[40]的任务所示。 逆标度奖,事后疏忽 准确度 50 100 0 阿达巴贝奇居里gpt-3.5gpt-4型号 图3.GPT-4和较小模型在后见之明忽略任务上的性能。精度显示在y轴上,越高越好。ada、babbage和curie指的是通过OpenAIAPI[41]提供的模型。 我们相信,准确预测未来的能力对于安全是很重要的。展望未来,我们计划在大型模型训练开始之前完善这些方法,并记录各种能力的性能预测,我们希望这成为该领域的共同目标。 4能力 我们在一系列不同的基准测试中测试了GPT-4,包括最初为人类设计的模拟考试。模型在训练期间发现了考试中的少数问题;对于每次考试,我们运行一个变体,删除这些问题,并报告两者的较低分。我们认为结果具有代表性。有关污染的更多详细信息(方法和每次检查的统计数据),请参见附录C。 考试来自公开的材料。考试问题包括多项选择和自由回答问题;我们为每种格式设计了单独的提示,并且图像包含在需要它的问题的输入中。评估设置是根据一组验证考试的表现而设计的,我们会报告举行的测试考试的最终结果。通过使用每次考试的公开可用方法结合多项选择和自由回答问题分数来确定总体分数。有关考试评估方法的更多详细信息,请参见附录A。 3我们在这些考试中使用了训练后的RLHF模型。 考试 GPT-4 GPT-4(无视力) GPT-3.5 统一酒吧考试(MBE+MEE+MPT) 298/400(~90) 298/400(~90) 213/400(~10th) LSAT 163(第88位) 161(~83) 149(~40) SAT循证阅读与写作 710/800(~93) 710/800(~93) 670/800(~87) SAT数学 700/800(~89) 690/800(~89) 590/800(~70) 研究生入学考试(GRE)定量 163/170(~80) 157/170(~62) 147/170(~25日) 研究生入学考试(GRE)口语 169/170(~99) 165/170(~96) 154/170(~63) 研究生入学考试(GRE)写作 4/6(~54) 4/6(~54) 4/6(~54) USABO2020年半决赛 87/150(第99-100) 87/150(第99-100) 43/150(第31-33) USNCO地方考试2022 36/60 38/60 24/60 医学知识自我评估计划 75% 75% 53% 代码强制等级 392(第5名以下) 392(第5名以下) 260(第5名以下) AP艺术史 5(第86-100) 5(第86-100) 5(第86-100) AP生物学 5(第85-100) 5(第85-100) 4(第62-85) AP微积分BC 4(第43-59) 4(第43-59) 1(第0-7) AP化学 4(第71-88) 4(第71-88) 2(第22-46) AP英语语言和作文 2(第14-44) 2(第14-44) 2(第14-44) AP英语文学与作文 2(第8-22) 2(第8-22) 2(第8-22) AP环境科学 5(第91-100) 5(第91-100) 5(第91-100) AP宏观经济 5(第84-100) 5(第84-100) 2(第33-48) AP微观经济学 5(第82-100) 4(第60-82) 4(第60-82) AP物理2 4(第66-84) 4(第66-84) 3(第30-66) AP心理学 5(第83-100) 5(第83-100) 5(第83-100) AP统计