arXiv:2303.10130v1[econ.GN]2023年3月17 GPT是GPT:早期观察大型语言模型对劳动力市场的影响潜力 TynaEloundou1,ft姆·曼宁1,2,PamelaMishkin∗1丹尼尔·洛克3 1OpenAI2OpenR esearch 3宾夕法尼亚大学 2023年3月20日 Abstract 我们调查了生成式预训练变压器(GPT)模型和相关技术对美国的潜在影响。S.劳动力市场。使用新的规则,我们根据与GPT能力的对应关系评估职业,结合人类专业知识和GPT-4的分类。我们的研究结果表明,大约80%的美国人S.员工可能会有至少10%的工作任务受到GPT的影响,而大约19%的员工可能会看到至少50%的工作任务受到影响。影响范围涵盖所有工资水平,高收入工作可能面临更大的风险。值得注意的是,影响不仅限于近期生产率增长较高的行业。我们得出的结论是,GeerativePre-traiedTrasformers表现出通用技术(GPT)的特征,这表明这些模型可能具有显着的经济,社会和政策含义。 1Introduction 如图1所示,近年来,几个月和几周在生成AI和大型语言模型(LLM)领域取得了显着进展。尽管公众经常将LLM与GeerativePre-traiedTrasformer(GPT)的各种迭代相关联,但LLM可以使用一系列体系结构进行训练,而不仅限于基于变压器的模型(Devli等人。,2019)。LLM可以处理和生成各种形式的顺序数据,包括汇编语言,蛋白质序列和国际象棋游戏,超越了自然语言应用程序。在本文中,我们在某种程度上可互换地使用LLM和GPT,并在我们的标题中指定这些应被视为类似于通过ChatGPT或OpeAIPlaygrod提供的GPT系列模型(在标记时包括GPT -3.5系列中的模型,但不包括GPT-4系列)。我们检查具有文本和代码生成能力的GPT,并使用术语“生成AI”来另外包括诸如图像或音频之类的模态。 然而,我们的研究不仅仅受到这些模型的进步的推动,更多的是我们在围绕它们开发的互补技术中看到的广度、规模和能力。补充技术的作用还有待观察,但最大限度地发挥LLM的影响似乎取决于将它们与更大的系统集成(Bresaha,2019;Agrawal等人。,2021)。虽然我们将大部分讨论集中在LLM的生成功能上,但通过将LLM用于其他任务(包括嵌入等),可能会有新类型的软件和机器通信。 ∗对应作者(pamela@openai.com)。作者贡献相等,并按字母顺序列出。 图1:要了解模型功能的发展速度,请考虑GPT-3.5和GPT-4(OpenAI,2023b)之间的考试成绩跃升。 可以构建自定义搜索应用程序或任务,如汇总和分类,其中可能不清楚在哪里区分什么是或不是生成的。 为了将这一进展与背景化并补充技术对劳动力的影响预测,我们提出了一个新的规则,以了解LLM能力及其对工作的潜在影响。此规则(A.1)遵循先前关于量化机器学习暴露的工作的精神,测量任务对GPT的总体暴露(Bryjolfsso等人。,2018年;Felte等人。,2018年;韦伯,2020年)。我们将风险敞口定义为潜在经济影响的替代指标,而没有区分劳动力增加或劳动力置换效应。我们使用人类注释器和GPT-4本身作为分类器 ,将此规则应用于美国的职业数据。S.经济,主要来自O*NET数据库。¹² 为了构建我们的主要暴露数据集,我们收集了人类注释和GPT-4分类, 使用与作者的标签样本一致的提示。当汇总到任务级别时,我们在GPT-4响应中以及人与机器评估之间观察到类似的协议级别。该指标反映了对提高人类劳动效率的技术能力的估计;但是,社会,经济,法规或其他决定因素意味着技术可行性不能保证劳动生产率或自动化结果。我们的分析表明,在考虑当前模型功能和基于它们的预期工具时,大约19%的工作至少有50%的任务暴露。人类评估表明,只有3%的美国人S.在考虑现有的语言和代码功能时,工作人员有超过一半的任务暴露在GPT中,而无需额外的软件或模式。考虑到其他生成模型和互补技术,我们的人类估计表明 。 ¹这与最近的社会科学研究不同,后者利用高级语言模型来模拟人类行为(Horton,2023;Sorensen等人,2022) ²虽然我们的曝光规则不一定将语言模型的概念与任何特定模型联系在一起,但我们强烈地受到了我们观察到的GPT-4功能以及我们在与 OpenAI的发布合作伙伴(OpenAI,2023b)开发中看到的功能套件的激励。 高达49%的员工可能有一半或更多的工作接触LLM。 我们的研究结果一致显示,在人类和GPT-4注释中,大多数职业都表现出一定程度的LLM暴露,不同类型工作的暴露水平不同。工资较高的职业通常具有较高的风险敞口,这一结果与对整体机器学习风险敞口的类似评估相反(Bryjolfsso等人。,2023)。当使用O*NET的技能指标对技能集的暴露程度进行回归时,我们发现严重依赖科学和批判性思维技能的角色与暴露程度呈负相关,而编程和写作技巧与LLM暴露程度呈正相关。跟随Ator等人。(2022a),我们研究了“工作区”的进入壁垒,发现LLM的职业暴露随着工作准备的困难而微弱地增加。换句话说,在工作中面临较高(较低)进入壁垒的工人往往会经历更多(更少)的LLM。我们进一步将我们的测量结果与以前记录自动化在经济中的分布的努力进行了比较,并找到了广泛一致的结果。我们检查的大多数其他技术暴露指标与我们首选的暴露指标在统计上显着相关,而手动例行程序和机器人暴露指标则呈负相关。这些早期努力解释了差异(Acemogl和Ator,2011a;Frey和Osbore,2017;Bryjolfsso等人。,2018年 ;Felte等人。,2018年;韦伯,2020年;Bryjolfsso等人。,2023),加上工资控制,从60%到72%不等,这表明我们的人工智能暴露度量的28%到40%的变化仍然没有被以前的技术暴露所解释。 测量。 我们按行业分析风险敞口,发现信息处理行业(4位NAICS)的风险敞口较高,而制造业,农业和采矿业的风险敞口较低。过去十年的生产率增长与整体GPT暴露之间的联系似乎很弱,这表明潜在的乐观案例,即LLM的未来生产率增长可能不会加剧可能的成本疾病效应(Bamol,2012)。.³ OuranalysisindicatesthattheimpactsofLLMlikeGPT-4,arelikelytobepervasive.WhileLLM 随着时间的推移,它们的能力不断提高,即使我们今天停止开发新能力,它们日益增长的经济效应也有望持续下去并增加。我们还发现,如果考虑到互补技术的发展,LLM的潜在影响将显着扩大。总的来说,这些特征意味着生成预训练变压器(GPT)是通用技术(GPT)。4(Bresaha和Trajteberg,1995;Lipsey等人。,2005)。(Goldfarb等人 。,2023)认为机器学习作为一个广泛的类别很可能是一种通用技术。我们的证据支持更广泛的影响,因为即使是机器学习软件的子集也独立地满足通用技术状态的标准。本文的主要贡献是提供一组LLM冲击潜力的测量值 ,并演示应用LLM有效地大规模开发此类测量值的用例。此外,我们还展示了LLM的通用潜力。如果“GPT就是GPT”,那么LLM开发和应用的最终轨迹可能对政策制定者进行预测和监管具有挑战性。与其他通用技术一样 ,这些算法的大部分潜力将出现在广泛的具有经济价值的用例中,包括创建新类型的工作(Acemogl和Restrepo ,2018;Ator等人。,2022a)我们的研究用于衡量现在在技术上可行的方法,但随着时间的推移,必然会错过LLM不断发展的影响潜力。 本文的结构如下:第2节回顾了相关的先前工作,第3节讨论了方法和数据收集,第4节提供了摘要统计和结果,第5节将我们的测量与早期的工作联系起来,第6节探讨了结果,第7节提供了结论。 ³鲍莫尔成本病是一种理论,它解释了为什么医疗保健和教育等劳动密集型服务的成本会随着时间的推移而增加。发生这种情况是因为其他 行业的熟练工人的工资增加了,但是这些服务行业的生产率或效率却没有相应的提高。因此,与经济中的其他商品和服务相比,这些行业的劳动力成本变得相对更贵。 4在本文的其余部分中,我们使用GPT来指代大型语言模型,通常以OpenAI提供的语言模型为例,并且在使用“GPT是GPT”之外的通用技术时,我们会详细说明通用技术。 2文献综述 2.1大型语言模型的发展 近年来,大型语言模型(LLM)在人工智能(AI)研究领域的地位日益突出,展示了它们处理各种复杂的基于语言的任务的能力。这一进展是由多个因素推动的,包括增加的模型参数计数、更大的训练数据量和增强的训练配置(Brow等人。,2020年;Radford等人。,2019年;埃尔南德斯等人。,2021年;卡普兰等人。,2020年)。广泛的、最先进的LLM,如LaMDA(Thoppila等人。,2022)和GPT-4(OpeAI,2023b),在翻译 、分类、创意写作和代码生成等不同应用方面表现出色,这些功能以前需要专家工程师使用特定领域的数据开发专门的、特定任务的模型。 同时,研究人员使用微调和具有人类反馈的强化学习等方法来改善这些模型的可操纵性,可靠性和实用性(Oyag等人。,2022年;Bai等人。,2022)。这些进步增强了模型识别用户意图的能力,使它们更加用户友好和实用。此外,最近的研究揭示了LLM编程和控制其他数字工具的潜力,例如API,搜索引擎,甚至其他生成性AI系统(Schic等人。,2023;Mialo等人。,2023年;大通,2022年)。这可以实现各个组件的无缝集成,以获得更好的实用性,性能和通用性。从长远来看,这些趋势表明LLM可能能够执行通常在计算机上执行的任何任务。 在大多数情况下,生成AI模型主要被部署为模块化专家,执行特定任务,例如从字幕生成图像或从语音转录文本。但是,我们认为,必须采用更广泛的观点,认识到LLM是其他工具的重要组成部分。虽然构建这些工具并将其集成到综合系统中需要时间,并且需要对整个经济中的现有流程进行重大重新配置,但我们已经观察到新兴的采用趋势。尽管存在局限性,但LLM越来越多地集成到诸如写作协助,编码和法律研究等领域的专业应用程序中,为企业和个人更广泛地采用GPT铺平了道路。 我们强调这些互补技术的重要性,部分原因是由于事实不准确,固有偏见,隐私问题和虚假信息风险等问题 ,开箱即用的通用GPT对于各种任务可能仍然不可靠(Abid等人。,2021;Schramowsi等人。,2022年;戈德斯坦等人。,2023年;OpeAI,2023a)。但是,专门的工作流程(包括工具、软件或人在环系统)可以通过结合特定领域的专业知识来帮助解决这些缺点。例如,Casetext提供基于法学硕士的法律研究工具,为律师提供更快,更准确的法律研究成果,利用嵌入和总结来应对GPT-4提供有关法律案件或文件集的不完整细节的风险。GitHbCopilot是一个编码助手,它使用LLM生成代码片段和自动完成代码,然后用户可以根据他们的专业知识接受或拒绝。换句话说,虽然它自己的GPT-4确实不“知道它是什么时间”,但它很容易给它一个手表 。 此外,当LLM超过特定的性能阈值时,可能会出现正反馈循环,从而使它们能够帮助构建工具,从而增强其在各种环境中的实用性和可用性。这可以降低创建此类工具所需的成本和工程专业知识,有可能进一步加速LLM的采用和集成。(陈等人。,2021;Peg等人。,2023)LLM也可以成为机器学习模型开发中的宝贵资产-充当研究人员的编码助手,数据标记服务或合成数据生成器。这样的模型有可能为任务级别的经济决策做出贡献,例如,通过改进人与机器之间的任务和子任务分配方法(Sigla等人。,2015;沙哈夫和霍维茨,2010)。随着LLM随着时间的推移而改进并更