您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:GPT - 4 技术报告 - 发现报告
当前位置:首页/行业研究/报告详情/

GPT - 4 技术报告

信息技术2023-03-27-未知机构周***
GPT - 4 技术报告

arXiv:2303.08774v3[cs.CL]2023年3月27日 GPT-4技术报告 OpenAI∗ Abstract 我们报告了GPT-4的开发,GPT-4是一种大规模的多模态模型,可以接受图像和文本输入并产生文本输出。虽然GPT-4在许多现实世界中的能力不如人类,但它在各种专业和学术基准上表现出人类水平的表现,包括通过模拟律师资格考试,分数约为前10%的考生。GPT -4是预训练以预测文档中的下一个令牌的基于变换器的模型。训练后的调整过程导致对事实性和对期望行为的坚持的度量的改进性能。该项目的核心组成部分是开发基础设施和优化方法,这些方法可以在各种规模上预测。这使我们能够基于不超过GPT-4计算量1/1,000的模型来准确预测GPT-4性能的某些方面。 1Introduction 本技术报告介绍了GPT-4,这是一种大型多模式模型,能够处理图像和文本输入并生成文本输出。这些模型是一个重要的研究领域,因为它们有可能用于广泛的应用,例如对话系统,文本摘要和机器翻译。因此,近年来,它们一直是人们感兴趣和进步的主题[1-34]。 开发此类模型的主要目标之一是提高其理解和生成自然语言文本的能力,特别是在更复杂和微妙的场景中。为了测试其在这种情况下的能力,GPT-4在最初为人类设计的各种考试中进行了评估。在这些评估中,它表现得很好,通常超过绝大多数人类考生。例如,在模拟律师资格考试中,GPT-4的分数落在考生的前10%。这与GPT-3.5形成对比,GPT -3.5的得分最低10%。 在一套传统的NLP基准测试中,GPT-4的性能优于以前的大型语言模型和最先进的系统(通常具有特定于基准测试的训练或手工工程)。在MMLU基准测试[35,36]上,一个涵盖57个科目的英语多项选择题套件,GPT-4不仅在英语方面有相当大的优势优于现有模型,而且在其他语言方面也表现出强劲的表现。在MMLU的翻译变体中,GPT-4在所考虑的26种语言中的24种语言中超过了英语的最新水平。我们将在后面的章节中更详细地讨论这些模型能力结果以及模型安全性改进和结果。 本报告还讨论了该项目的一个关键挑战,即开发深度学习基础设施和优化方法,使我们能够预测GPT-4的预期性能 (基于以类似方式训练的小型运行),并对最终运行进行测试,以提高我们对训练的信心。 尽管具有功能,但GPT-4与早期的GPT模型[1,37,38]具有类似的局限性:它不是完全可靠的(例如可能遭受“幻觉”),上下文窗口有限,并且不会学习 ∗Pleasecitethisworkas“OpenAI(2023)”.Fullauthorshipcontributionstatementsappearsattheendofthedocument.Representationregardingthistechnicalreportcanbesenttogpt4-report@openai.com 在使用GPT-4的输出时,特别是在可靠性很重要的情况下,应该小心。 GPT-4的能力和局限性带来了重大而新颖的安全挑战,我们认为,考虑到潜在的社会影响,对这些挑战的仔细研究是一个重要的研究领域。本报告包括一个广泛的系统卡(附录之后),描述了我们在偏见,虚假信息,过度依赖,隐私,网络安全,扩散等方面所预见的一些风险。它还描述了我们为减轻GPT-4部署带来的潜在危害而采取的干预措施,包括与领域专家进行的对抗性测试以及模型辅助的安全管道。 2本技术报告的范围和限制 本报告重点介绍GPT-4的功能、限制和安全特性。GPT-4是一个Trasformer风格的模型[39],它使用公开可用的数据(如互联网数据)和第三方提供商许可的数据来预测文档中的下一个令牌。然后使用来自人类反馈的强化学习(RLHF)[40]对模型进行了微调。鉴于GPT-4等大型模型的竞争格局和安全影响 ,本报告不包含有关体系结构(包括模型大小),硬件,训练计算,数据集构建,训练方法或类似内容的更多详细信息。 我们致力于对我们的技术进行独立审计,并在本新闻稿随附的系统卡中分享了这方面的一些初步步骤和想法。2我们计划向其他第三方提供更多技术细节,这些第三方可以就如何权衡上述竞争和安全考虑因素与进一步透明度的科学价值提供建议。 3可预测的缩放 GPT-4项目的主要重点是构建可预测扩展的深度学习堆栈。主要原因是对于像GPT-4这样的非常大的训练运行 ,进行广泛的特定于模型的调整是不可行的。为了解决这个问题,我们开发了具有跨多个尺度的非常可预测行为的基础设施和优化方法。这些改进使我们能够可靠地 从使用训练的较小模型中预测GPT-4性能的某些方面1,000×– 10,000×更少的计算。 3.1损失预测 正确训练的大型语言模型的最终损失被认为在用于训练模型的计算量中由幂律很好地近似[41,42,2,14,15]。 为了验证我们的优化基础设施的可扩展性,我们预测了GPT-4在我们的内部代码库(不是训练集的一部分)上的最终损失,方法是用一个不可减少的损失项拟合一个缩放定律(如Henighan等人[15]):L(C)=aCb+C,来自使用相同方法训练的模型,但使用的计算量最多比GPT-4少10,000倍。此预测是在运行开始后不久进行的,没有使用任何部分结果。拟合的缩放法则以高精度预测了GPT-4的最终损失(图1)。 3.2HumanEval上的能力缩放 在训练之前了解模型的功能可以改善围绕对齐、安全和部署的决策。除了预测最终损失外,我们还开发了方法来预测更多可解释的能力指标。一个这样的指标是HmaEval数据集的通过率[43],它衡量了合成不同复杂性的Pytho函数的能力。我们通过从训练过的模型外推,成功地预测了HmaEval数据集子集的通过率。 最多1,000×更少的计算(图2)。 ForanindividualprobleminHumanEval,performancemayoccasionatelyworsenwithscale.Despitethesechallenges,wefoundanapproximalpowerlawrelationship−EP[日志(通过_rate(C))]=α∗C−k 除了随附的系统卡,OpenAI将很快发布有关AI系统的社会和经济影响的其他想法,包括对有效监管的需求。 OpenAI代码库下一个单词预测 100p10n1µ100µ0.011 观察到的预测gpt-4 每字位数6.0 5.0 4.0 3.0 2.0 1.0 计算 图1.GPT-4和更小型号的性能。度量是从我们的内部代码库导出的数据集上的最终损失。这是一个方便的大型代码令牌数据集,不包含在训练集中。我们选择考虑损失,因为它在不同数量的训练计算中往往比其他措施噪音更小。虚线显示了对较小模型(不包括GPT-4)的幂律拟合;这种拟合可以准确地预测GPT-4的最终损失。X轴是归一化的训练计算,使得GPT-4为1。 23个编码问题的能力预测 观测预测 gpt-4 -平均原木通过率5 4 3 2 1 0 1µ10µ100µ0.0010.010.11 计算 图2.GPT-4和更小模型的性能。该指标是HumanEval数据集子集上的平均对数通过率。虚线显示了与较小模型(不包括GPT-4)的幂律拟合;这种拟合准确地预测了GPT-4的性能。x轴是训练计算归一化的,因此GPT-4为1 。 wherekandα是正常数,并且P是数据集中问题的子集。我们假设这种关系适用于该数据集中的所有问题。在实践中,非常低的通过率很难或不可能估计,所以我们限制问题P和模型M这样,给定一些大样本预算,每个问题至少由每个模型解决一次。 WeregisteredpredicturesforGPT-4’sperformanceonHumanEvalbeforetraining,usingonlyinformationavailablebeforetraining.Allbutthe15hardestHumanEvalproblemswerespliedinto6difficularbucketsbasedontheperformanceofsmallermodel3rd图2显示了最简单的桶,表明对于HumanEval问题的这个子集,结果预测非常准确,我们可以准确地估计日志(通过_rate)对于几个较小的模型。对其他五个存储桶的预测表现几乎一样好,主要的例外是GPT-4表现不如我们对最简单的存储桶的预测。 与Wei等人[45]最近的结果类似,我们发现GPT-4逆转了这一趋势,如图3中的HindsightNeglecect[46]。 反向缩放奖,事后忽视 准确性 50 100 0 adababbage居里gpt-3.5gpt-4模型 图3.GPT-4和更小模型在Hindsight忽略任务上的性能。精度显示在y轴上,越高越好。ada、babbage和居里指的是通过OpenAIAPI提供的模型[47]。 我们相信准确预测未来的能力对安全性很重要。展望未来,我们计划在大型模型训练开始之前完善这些方法并注册各种能力的性能预测,我们希望这成为该领域的共同目标。 4能力 我们在一系列不同的基准上测试了GPT-4,包括最初为人类设计的模拟考试。在训练过程中,模型发现了考试中的少数问题;对于每次考试,我们都会运行一个变体,并删除这些问题,并报告两者的得分较低。我们认为结果具有代表性。有关污染的更多详细信息(方法和每次检查统计),请参见附录C。 考试来自公开可用的材料。考试问题包括多项选择和自由回答问题;我们为每种格式设计了单独的提示,并在输入中包含了需要的问题的图像。评估设置是基于一组验证考试的性能而设计的,我们会在保留的测试考试中报告最终结果。总分是通过结合多项选择和自由回答问题的分数来确定的,使用公开的方法进行每次考试。我们估计并报告每个总分对应的百分位数。有关考试评估方法的更多详细信息,请参阅附录A。 3对于AMC10和AMC122022考试,人类百分位数尚未公布,因此报告的数字是外推的,可能具有广泛的不确定性。参见附录A.5。 4我们将训练后的RLHF模型用于这些检查。 考试 GPT-4 GPT-4(无视力) GPT-3.5 统一酒吧考试(MBE+MEE+MPT) 298/400(~90) 298/400(~90) 213/400(~10) LSAT 163(~88) 161(~83) 149(~40) SAT循证阅读和写作 710/800(~93) 710/800(~93) 670/800(~87) SAT数学 700/800(~89) 690/800(~89) 590/800(~70) 研究生入学考试(GRE)定量 163/170(~80) 157/170(~62) 147/170(~25日) 研究生入学考试(GRE)口语 169/170(~99) 165/170(~96) 154/170(~63) 研究生入学考试(GRE)写作 4/6(~54) 4/6(~54) 4/6(~54) USABO半决赛考试2020 87/150(第99-第100) 87/150(第99-第100 43/150(第31-33) ) USNCO地方部分考试2022 36/60 38/60 24/60 医学知识自我评估计划 75% 75% 53% Codeforces等级 392(低于第五) 392(低于第五) 260(低于第五) AP艺术史 5(第86-100) 5(第86-100) 5(第86-100) AP生物学 5(第85-100) 5(第85-100) 4(第62-第85) AP微积分BC 4(第43-第59) 4(第43-第59) 1(第0-7) AP化学 4(第71位-第88位 4(第71位-第88位) 2(22-46) ) AP英语语言和作文 2(第14-第44) 2(第14-第44) 2(第14-第