您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:GPT-4技术报告(英) - 发现报告
当前位置:首页/行业研究/报告详情/

GPT-4技术报告(英)

信息技术2023-03-10-未知机构陈***
GPT-4技术报告(英)

GPT-4技术报告 OpenAI∗ 摘要 我们报告了GPT-4的开发,这是一种大规模的多模态模型,可以接受图像和文本输入并生成文本输出。虽然在许多现实世界的场景中不如人类,但GPT-4在各种专业和学术基准上表现出人类水平的表现,包括通过模拟律师考试,分数约为考生的前10%。GPT-4是一个基于转换器的模型,经过预先训练以预测文档中的下一个令牌。培训后的调整过程可以提高对事实性和对期望行为的遵守情况的衡量。该项目的核心组成部分是开发基础设施和优化方法,这些方法在各种规模上都能预测。这使我们能够根据训练的模型准确预测GPT-4性能的某些方面,计算不超过GPT-4的1/1,000。 1介绍 本技术报告介绍了GPT-4,这是一种能够处理图像和文本输入并生成文本输出的大型多模态模型。这些模型是一个重要的研究领域,因为它们有可能用于广泛的应用,如对话系统、文本摘要和机器翻译。因此,近年来,它们一直是人们关注和进展的主题[1-28]。 开发此类模型的主要目标之一是提高它们理解和生成自然语言文本的能力,特别是在更复杂和微妙的场景中。为了测试其在这种情况下的能力,GPT-4在最初为人类设计的各种考试中进行了评估。在这些评估中,它的表现相当不错,并且经常超过绝大多数人类应试者。例如,在模拟律师考试中,GPT-4的分数落在考生的前10%中。这与GPT-3.5形成鲜明对比,后者得分垫底10%。 在一套传统的NLP基准测试上,GPT-4的性能优于以前的大型语言模型和大多数最先进的系统(通常具有特定于基准测试的培训或手动工程)。在MMLU基准测试[29,30](涵盖57个主题的英语多项选择题套件)上,GPT-4不仅在英语方面明显优于现有模型,而且在其他语言中表现出色。在MMLU的翻译变体上,GPT-4在考虑的26种语言中有24种超过了英语的最新技术。我们将在后面的部分中更详细地讨论这些模型功能结果以及模型安全性改进和结果。 本报告还讨论了该项目的一个关键挑战,即开发深度学习基础设施和优化方法,这些方法在各种规模上的行为都是可预测的。这使我们能够预测GPT-4的预期性能(基于以类似方式训练的小跑),并根据最终运行进行测试,以增加对我们训练的信心。 尽管具有功能,但GPT-4与早期的GPT模型具有类似的局限性[1,31,32]:它不完全可靠(例如,可能遭受“幻觉”),上下文窗口有限,并且无法学习 ∗请将这项工作引用为“OpenAI(2023)”。完整的作者贡献声明显示在文档末尾。 从经验。使用GPT-4的输出时应小心,尤其是在可靠性很重要的情况下。 GPT-4的能力和局限性带来了重大而新颖的安全挑战,鉴于潜在的社会影响,我们认为仔细研究这些挑战是一个重要的研究领域。本报告包括一个广泛的系统卡(在附录之后),描述了我们预见到的偏见、虚假信息、过度依赖、隐私、网络安全、扩散等方面的一些风险。它还描述了我们为减轻部署GPT-4的潜在危害而采取的干预措施 ,包括与领域专家的对抗性测试,以及模型辅助安全管道。 2本技术报告的范围和限制 本报告重点介绍GPT-4的功能、限制和安全特性。GPT-4是一种变形金刚风格的模型[33],经过预先训练 ,可以使用公开可用的数据(例如互联网数据)和第三方提供商许可的数据来预测文档中的下一个令牌。然后使用来自人类反馈的强化学习(RLHF)对模型进行微调[34]。鉴于GPT-4等大规模模型的竞争格局和安全影响,本报告不包含有关架构(包括模型大小)、硬件、训练计算、数据集构建、训练方法或类似内容的更多详细信息。 我们致力于对我们的技术进行独立审核,并在此版本随附的系统卡中分享了该领域的一些初始步骤和想法。2我们计划向其他第三方提供进一步的技术细节,他们可以就如何权衡上述竞争和安全考虑因素与进一步透明度的科学价值向我们提供建议。 3可预测的比例 GPT-4项目的一大重点是构建一个可预测的深度学习堆栈。主要原因是,对于像GPT-4这样的非常大的训练运行 ,进行广泛的特定于模型的调优是不可行的。为了解决这个问题,我们开发了基础设施和优化方法,这些方法在多个尺度上具有非常可预测的行为。这些改进使我们能够可靠地 从使用1,000×– 10,000×更少的计算。 3.1损失的预测 正确训练的大型语言模型的最终损失被认为与用于训练模型的计算量的幂律非常近似[35,36,2,14,15]。 为了验证优化基础设施的可扩展性,我们通过拟合具有不可约损失项的扩展定律来预测GPT-4在内部代码库(不是训练集的一部分)上的最终损失(如Henighan等人[15]):l(C)=交流b+c,来自使用相同方法训练但使用的计算量最多比GPT-4少10,000倍的模型。此预测是在运行开始后不久进行的,未使用任何部分结果。拟合缩放定律以高精度预测了GPT-4的最终损失(图1)。 3.2HumanEval缩放的功能 在训练之前了解模型的功能可以改进有关对齐、安全和部署的决策。除了预测最终损失外,我们还开发了预测更多可解释能力指标的方法。其中一个指标是HumanEval数据集[37]的通过率,它衡量合成不同复杂度的Python函数的能力。我们通过从训练的模型进行推断,成功地预测了HumanEval数据集子集的通过率 在大多数1,000×更少的计算(图2)。 对于HumanEval中的个人问题,性能偶尔会随着规模而恶化。尽管存在这些挑战,我们还是发现了近似的幂律关系−EP日志(通过_率(C)))=α∗C−k 2除了随附的系统卡外,OpenAI还将很快发布有关AI系统的社会和经济影响的其他想法,包括有效监管的必要性。 OpenAI代码库预测下一个词 100p10n1µ100µ0.011 计算 观察到的预测gpt-4 每一位6.0 5.0 4.0 3.0 2.0 1.0 图1所示。GPT-4和更小型号的性能。该指标是从我们的内部代码库派生的数据集的最终损失。这是一个方便的大型代码令牌数据集,不包含在训练集中。我们之所以选择查看损失,是因为在不同数量的训练计算中,它的噪声往往比其他度量要小。适合较小模型(不包括GPT-4)的幂律显示为虚线;这种拟合准确地预测了GPT-4的最终损失。x轴正在训练标准化计算,以便GPT-4为1。 23日能力预测编码问题 观察到的预测gpt-4 ——意思是日志通过率5 4 3 2 1 0 1µ10µ100µ0.0010.010.11 计算 图2。GPT-4和更小型号的性能。该指标是HumanEval数据集子集的平均日志通过率。适合较小模型(不包括GPT-4 )的幂律显示为虚线;这种拟合可以准确预测GPT-4的性能。x轴正在训练标准化计算,以便GPT-4为1。 在哪里k和α都是正的常数,然后呢P是数据集中问题的子集。我们假设这种关系适用于此数据集中的所有问题。在实践中,非常低的通过率很难或不可能估计,因此我们仅限于问题P和模型米这样,给定一些大的样本预算,每个模型至少解决一次每个问题。 在训练完成之前,我们在HumanEval上注册了对GPT-4性能的预测,仅使用训练前可用的信息。除了15个最难的HumanEval问题外,所有问题都根据较小模型的性能分为6个难度桶。结果在3日最简单的存储桶如图2所示,表明对于我们可以准确估计的HumanEval问题的这个子集,生成的预测非常准确。日志(通过_率)适用于几个较小的型号。对其他五个存储桶的预测也几乎表现相同,主要的例外是GPT-4的表现低于我们对最简单的存储桶的预测。 某些能力仍然难以预测。例如,逆向缩放奖[38]提出了几个任务,其中模型性能随比例而降低。与Wei等人[39]最近的结果类似,我们发现GPT-4扭转了这一趋势,如图3中称为后见之明忽视[40]的任务之一所示。 逆扩展奖,事后忽视 精度 50 100 0 ada巴贝奇居里gpt-3.5gpt-4模型 图3。GPT-4和更小模型在后见之明忽略任务中的表现。精度显示在y轴上,越高越好。ada、babbage和curie指的是通过OpenAIAPI提供的模型[41]。 我们认为,准确预测未来的能力对于安全至关重要。展望未来,我们计划在大型模型训练开始之前完善这些方法并跨各种功能注册性能预测,我们希望这成为该领域的共同目标。 4功能 我们在各种基准测试上测试GPT-4,包括最初为人类设计的模拟考试.3我们没有对这些考试进行特定培训。模型在训练期间看到了考试中的少数问题;对于每门考试,我们都会运行一个变体,删除这些问题并报告两者中的较低分数。我们认为结果具有代表性。有关污染的更多详细信息(方法和每次检查的统计数据),请参阅附录C。 考试来源于公开材料。考试题包括多项选择题和自由回答题;我们为每种格式设计了单独的提示,并且图像包含在需要它的问题的输入中。评估设置是根据一组验证考试的表现设计的,我们会报告保留考试的最终结果。总分是通过使用公开可用的方法将多项选择题和自由回答题分数相结合来确定的。有关考试评估方法的更多详细信息,请参阅附录A。 3我们在这些考试中使用了训练后的RLHF模型。 考试 GPT-4 GPT-4(没有视觉) gpt-3.5 梅伊MBE统一司法考试(MPT) (298/400~90) (298/400~90) 213/400(~10) 考试 (163~88) (161~83) 149(~40) 坐以证据为基础的阅读和写作 (710/800~93) (710/800~93) (670/800~87) SAT数学 (700/800~89) (690/800~89) (590/800~70) 研究生入学考试(GRE)定量 (163/170~80) (157/170~62) (147/170~25日) 研究生入学考试(GRE)语言 (169/170~99) (165/170~96) (154/170~63) 研究生入学考试(GRE)写作 4/6(~第54) 4/6(~第54) 4/6(~第54) USABO半决赛考试2020 87/150(99-99) 87/150(99-99) 43/150(31-33) USNCO当地部分考试2022 36/60 38/60 24/60 医学知识自我评估程序 75% 75% 53% Codeforces评级 392(低于5日) 392(低于5日) 260(低于5日) 美联社艺术史 5(86-86) 5(86-86) 5(86-86) 美联社生物学 5(85-85) 5(85-85) 4(62-62) 美联社微积分公元前 4(第43-59) 4(第43-59) 1(第0-7日) AP化学 4(71-71) 4(71-71) 2(22-46) 美联社英语和作文 2(14-44) 2(14-44) 2(14-44) 美联社英语文学和组成 2(8日-22日) 2(8日-22日) 2(8日-22日) 美联社环境科学 5(91-91) 5(91-91) 5(91-91) 美联社宏观经济学 5(84-84) 5(84-84) 2(33-48) 美联社微观经济学 5(82-82) 4(60-82) 4(60-82) 美联社物理2 4(66-66) 4(66-66) 3(30-66) 美联社心理学 5(83-83) 5(83-83) 5(83-83) 据美联社统计 5(85-85) 5(85-85) 3(40-63) 美联社美国政府 5(88-88) 5(88-88) 4(77-77) 美联社美国历史上 5(89-89) 4(74-74) 4(74-74) 美联社世界历史 4(65-65) 4(65-65) 4(65-65) AMC10 30/150(6-12) 36/150(10-19) 36/150(10-19) AMC12 60/150(45-66) 48/150(19-40) 30/150(4-8) 介绍性的侍酒师(理论知识) 92% 92% 80% 侍酒师认证(理论知识) 86% 86% 58%

你可能感兴趣

hot

GPT-4 技术报告(中文版)

信息技术
OpenAI2023-03-18
hot

GPT-4技术报告

OpenAI2023-03-16
hot

GPT-4系统卡(英)

信息技术
OpenAI2023-03-14
hot

2023年二季度移动技术报告(英)

信息技术
PitchBook2023-09-01