AI智能总结
通过 AI 驱动的文本挖掘识别绿色职位的扩展清单 米歇尔 · 帕利斯基 · 古涅斯 · 阿切克 · 托马斯 ·加伊德罗维奇 ·马奇 · 雅库博夫斯基 · 埃夫 · 萨恩 · 纳斯 政策研究工作文件 10908 Abstract 这项研究通过纳入全球视角并使用当代资料来源扩展了绿色职业标题的库存。该研究利用自然语言处理,特别是检索增强生成模型,来识别绿色职业标题。过程始于使用Scopus和Web of Science的官方API搜索2008年之后发表的学术文献。搜索结果共产生了1,067篇文章,从中识别出695个独特的潜在绿色职业标题。检索增强生成模型利用了Generative Pre-trained的高级文本分析能力。 变压器4,提供了一种可重复的方法来对各种绿色经济部门内的职位进行分类。研究将这些职位标题聚类为25个不同的部门。这种分类与现有的框架高度一致,如美国劳工部的职业信息网络,并暗示了潜在的新类别,如绿色人力资源。研究结果展示了先进自然语言处理模型在识别新兴绿色职位方面的效果,对绿色经济转型的持续讨论做出了重要贡献。 这篇论文是由世界银行的社会保护与就业全球实践部门出品。它是世界银行为提供研究开放访问、并为全球发展政策讨论做出贡献而开展的一项更大努力的一部分。政策研究工作论文也在网上发布于http://www.worldbank.org/prwp。作者可以联系snasozen@worldbank.org和draju2@worldbank.org。 该政策研究工作论文系列旨在发布正在进行中的研究成果,以促进关于发展问题的交流和讨论。该系列的一个目标是在报告尚未完全完善的情况下迅速传播这些发现。论文应注明作者姓名,并据此引用。本文的观点、解释和结论完全是作者的个人观点。它们不一定代表国际复兴开发银行/世界银行及其附属组织的观点,也不一定代表世界银行执行董事会成员或他们所代表的政府的观点。 通过 AI 驱动的文本挖掘识别绿色职位的扩展清单 米歇尔 · 帕利斯基· 古涅斯 · 阿切克 ·托马斯 · 加伊德罗维奇 · 马奇 · 雅库博夫斯基 · 埃夫 ·萨恩 · 纳斯 JEL 代码: J23, Q52, O14 1. Introduction 气候变化日益加剧的影响凸显了绿色转型的紧迫性——这一向可持续实践的重大转变对于地球的未来至关重要。这一转型预计将会迅速加速,因此政策制定者需要分析其对国家劳动力市场的影响,并制定有效的策略以应对不断变化的形势。了解绿色就业的范围和性质对于指导公共政策至关重要,使政府和组织能够制定针对性的教育、培训和就业策略,以支持可持续经济的发展。 全球范围内,绿色职位使用最为广泛的数据来源是美国劳工部职业信息网络(O*NET)在2009年构建的“绿色职业”列表(Dierdorff等,2009)。O*NET最初的方法涉及审查涵盖绿色经济相关广泛工作场所主题的出版物。在评估绿色职位时,研究主要采用两种方法:自上而下的方法,将整个行业或部门归类为绿色,以及自下而上的方法,专注于特定的职业,根据这些角色与之相关的绿色任务或技能来定义绿色职位(Valero等,2021)。O*NET的分类方法是绿色职位分析中自下而上方法中最常用的职位检索来源(经合组织,2023)。 绿色职业分类由O*NET开发,在塑造绿色经济的定量研究方面发挥了重要作用。在美国,其影响体现在Consoli等人(2016)、Popp等人(2020)、Vona、Marin和Consoli(2019)以及Vona等人(2018)等研究人员的研究中。该分类还被改编应用于不同的地区,包括欧盟(Bowen和Hancké 2019)、荷兰(Elliott等人2021)、英国(Valero等人2021)、经合组织成员国(OECD 2023)、越南(Doan等人2023)以及阿根廷(de la Vega、Porto和Cerimelo 2024)。在将职业分类为绿色之后,研究进一步探讨了绿色工作岗位所需的具体技能和任务,分析了绿色工作岗位创造和分布的趋势,并评估了与绿色转型相关的更广泛经济影响,如生产率、创新和经济增长。 然而,两个主要问题使得O*NET在全世界范围内尤其是绿色岗位方面不太相关。首先,O*NET是在2009年构建的,最新的重大分类修订完成于2011年(Dierdorff等人,2011),相关参考书目最后更新于2013年(O*NET,2013)。自2009年以来,关于绿色岗位的文献有了显著扩展。其次,O*NET是为美国劳动力市场设计的,基于美国的背景识别职业中的任务。这些职位所需的任务和技能取决于生产技术,而在美国和其他经济体(如低收入和中等收入国家)之间可能存在显著差异。 我们的研究旨在通过纳入全球视角和结合当代资源来扩大绿色工作岗位的库存。我们对文献进行了回顾,使用Scopus和Web of Science两大领先的文献数据库,在2008年之后的文章中进行搜索,以获取学术界广泛使用的跨学科同行评审出版物的广泛全球集合(Zhu和Liu, 2020)。2008年标志着这一转变的开始。 关于绿色工作对话的关键时刻 , 第一个明确定义了这一概念(Stanef - Puic ñ et al. 2022)。 构建类似O*NET的分类体系通常涉及对绿色背景下的职位标题进行定性编码,这一方法劳动密集且耗时。然而,越来越多的趋势是利用自然语言处理(NLP),常常结合专家评审,作为一种强大的工具来识别和分类各种背景下的职位,包括绿色经济(Chiarello等,2021;Decorte等,2021;Li等,2020;Papoutsoglou等,2022)。一个显著的例子是欧盟委员会于2022年发起的一项倡议,该倡议使用双向编码表示的变换器(BERT)NLP算法与手动标注相结合,以识别欧洲技能、能力、资格和职业分类中的绿色概念(EC,2022)。 与这一基于自然语言处理(NLP)的方法学演变相一致,我们的研究采用了先进的人工智能(AI)流水线,具体而言,是使用了检索增强生成(RAG)模型(Lewis等,2020)来识别学术文献中的绿色工作岗位。这项技术使得我们能够检查远超手动方法所能容纳的大量文献。RAG作为一种有效的NLP方法脱颖而出,它结合了检索基和生成基AI模型的优点,从而解决了基础生成AI中普遍存在的问题,如幻觉以及缺乏领域特定知识(Gao等,2023)。重要的是,我们的方法具有可重复性,这使得在未来随着关于绿色转型的文献不断扩展,绿色工作岗位的列表可以进行更新。 我们在2024年4月进行搜索时,在2009年1月至2024年4月之间发表的学术文献中最终找到了1,067篇文章用于分析。我们发现,关于绿色转型的学术研究在过去15年里显著扩展,不仅在文章数量上有所增加,还在代表的国家和地区多样性方面有所提升。2009年,关于绿色转型的文章仅有44篇。到2023年,这一数字已增加至162篇。2009年时,这些文章几乎仅涵盖了美国、加拿大、中国和欧盟国家。而到2023年,覆盖范围已经扩展至包括欧洲、高加索地区、东南亚和非洲。 我们从105篇文章(占1,067篇文章的10%)中识别出了695个独特的绿色职业标题。我们将自己列出的绿色职业与O*NET中识别的绿色职业进行比较,发现17%的职业标题与O*NET中的完全匹配或几乎完全匹配,同时我们还通过不太精确的匹配识别出了潜在的新职业标题。 我们的研究证明,基于人工智能的模型可以在大量不断扩增的文献中识别出定性信息,以应对容量挑战,尽管存在一些局限性。未来的研究和实践应侧重于精炼这些人工智能驱动的方法,并整合额外的信息来源,以不断更新和扩展绿色职业标题的库存,随着有关绿色转型的文献不断演变。 2. 方法 相关文献的识别 在2024年4月,我们使用Scopus和Web of Science的官方应用程序编程接口,对自2009年1月以来发表的文献进行了搜索。我们的搜索策略结合了之前在三项关于绿色工作岗位系统的文献综述中验证过的关键词组合(Apostel和Barslund 2024;Kozar和Sulich 2023;Stanef-Puică等2022)。这些关键词组合包括“绿色岗位”、“绿色职业”、“绿色就业”、“可持续岗位”、“可持续职业”、“绿色转型岗位”和“绿领岗位”。(箱1列出了搜索查询。)这些关键词在标题、摘要、作者关键词以及数据库中引用的主题中进行搜索。为了确保结果的可信度,我们将研究范围限定为同行评审的出版物,具体为文章和评论(以下简称“文章”)。 我们的搜索方法与 O * NET 的搜索方法有很大不同.尽管O*NET详细地对参考书中收录的来源进行了索引和分类,但其选择过程的具体细节却很少被描述。没有关于特定关键词或收集文章时所使用的方法的详细信息。这一过程中涉及收集并审查了超过60篇出版物,包括学术期刊、委托报告、行业白皮书以及政府技术报告。此外,O*NET还对与绿色产业劳动力相关的各种互联网资源进行了大量审核(O*NET 2013)。 文献中的绿色职称识别 我们使用RAG模型来模拟传统由研究助理手工标注文章中绿色职业标题的工作。这一手工标注过程涉及分析集中上千页的文章,耗时且容易受到人为监督失误、认知偏见和启发式捷径的影响。相比之下,RAG模型提供了稳健且一致的方法。 使用RAG模型的一个显著优势在于结果的可再现性。通过利用OpenAI模型中可用的种子参数,特别是Generative Pre-trained Transformer 4(GPT-4)-0125-preview模型,我们确保了结果的可再现性,从而提供了比手动标注更高的一致性。虽然由于其固有的随机性质,模型无法完全确定,但使用种子参数有助于确保结果在多次运行中具有高度的一致性(Anadkat 2023)。此外,GPT-4模型先进的自然语言理解能力使其能够对文章中讨论的工作头衔进行细致分析。这在我们的分析集中尤为重要,因为绿色和非绿色工作经常在同一篇文章中被提及。模型能够识别上下文并相应地分类工作头衔的能力远超传统的NLP方法,如较不强大的嵌入模型BERT或完全监督的方法命名实体识别(NER),后者可能无法捕捉到这些细微差别或复杂性。 我们采用RAG模型,使用嵌入模型识别文章中讨论特定职位的相关部分(片段)。我们在嵌入过程中使用了OpenAI最先进的text-embedding-3-large模型,该模型具有3072维。虽然分块通常用于规避某些模型上下文窗口的限制,但我们的应用中使用了GPT-4,其上下文窗口容量达到128,000个标记(相当于96,000个单词),并未受到此类限制。相反,我们在分析中选择对文本进行分块的原因在于,分块显著提高了检索内容的相关性,减少了嵌入文本中的噪声(Yepses等,2024)。接下来,我们使用GPT-4模型审查提及职位的文章段落,旨在根据上下文推断作者是否将这些角色归类为绿色岗位。鉴于学术文献中“绿色岗位”存在多种竞争性定义(Stanef-Puică等,2022),我们未采用任何单一定义。相反,我们指示模型判断作者是否认为这些岗位是绿色的,例如它们是否在绿色经济、可持续性或气候缓解领域内讨论。我们特意没有向模型展示任何预先设定的绿色岗位分类,以防止先入为主的效果,并促进基于上下文的客观评估。我们将在附录中更详细地描述RAG模型的工作流程阶段。 AI的生成能力在RAG模型实施过程的最终阶段被特别利用(如图1所示)。尽管AI具备广泛的训练知识,我们的模型战略性地避免使用这些知识。生成功能并未用于引入或推断其训练中的信息,而是用于解释和分析呈现给它的文本。当模型识别出可能讨论绿色工作岗位的文本部分时,它会利用其自然语言理解能力来分析给定的文本。目标是确定文章作者是否确实提到了具体的职位名称,并且这些名称是否在绿色背景下进行了讨论。 我们使用的模型与命名实体识别(NER)这一自然语言处理(NLP)过程中的方法有共通之处,涉及在文本中识别和分类关键信