授权公开披露 授权公开披露 政策研究工作文件10908 通过AI驱动的文本挖掘识别绿色职位的扩展清单 米歇尔·帕利斯基·古涅斯·阿切克·托马斯·加伊德罗维奇·马奇·雅库博夫斯基·埃夫·萨恩·纳斯 社会保护和就业全球实践2024年9月 政策研究工作文件10908 Abstract 这项研究通过纳入全球视角并使用当代数据源来扩展绿色职位标题的库存。它利用了自然语言处理,特别是检索增强生成模型,来识别绿色职位标题。过程始于使用Scopus和WebofScience的官方API搜索2008年以后发表的学术文献。搜索结果产生了1,067篇文章,从中识别出了695个独特的潜在绿色职位标题。检索增强生成模型利用了生成预训练模型高级文本分析的能力, 变压器4,提供了一种可重复的方法来对各种绿色经济部门内的职位进行分类。研究将这些职位标题聚类成25个不同的部门。这种分类与现有的框架高度一致,如美国劳工部的职业信息网络,并且建议了潜在的新类别,如绿色人力资源。研究结果展示了先进自然语言处理模型在识别新兴绿色职位角色方面的有效性,为绿色经济转型的持续讨论做出了重要贡献。 这篇论文是由世界银行的社会保护与就业全球实践部门所产。作为一项更广泛努力的一部分,世界银行致力于提供其研究成果的开放访问,并为全球发展政策讨论做出贡献。政策研究工作论文也在网上发布于http://www.worldbank.org/prwp。作者可以联系snasozen@worldbank.org和draju2@worldbank.org。 该政策研究工作论文系列发布正在进行中的研究成果以促进关于发展问题的交流与讨论。该系列的一个目标是在快速传播这些发现的同时,即使展示尚未完全完善。这些论文附有作者姓名,并应据此引用。本报告中的观点、解释和结论完全是作者的观点。它们不一定代表国际复兴开发银行/世界银行及其附属组织的观点,也不代表世界银行执行董事会或其所代表的政府的观点。 由研究支持团队制作 通过AI驱动的文本挖掘识别绿色职位的扩展清单 米歇尔·帕利斯基 ·古涅斯·阿切克·托马斯·加伊德罗维奇·马奇·雅库博夫斯基·埃夫·萨恩·纳斯 关键词:人工智能,文本挖掘,职业分类,绿色就业,绿色经济JEL代码:J23,Q52,O14 帕林斯基:华沙大学,华沙,m.palinski@uw.edu.pl。安卡拉,TOBB经济技术大学,gunesasik@gmail.com.Gajderowicz:华沙大学,华沙,tgajderowicz@wne.uw.edu.pl.Jakubowski:华沙大学,华沙,mjakubowski@u w.edu.pl。Nasözen:世界银行,安卡拉,snasozen@worldbank.org.Raju:世界银行,华盛顿特区,draju2@worldbank.org. 我们感谢BerküÇopur在文献搜索方面的研究支持。我们也要感谢BurakBaskın、PaoloBelli、AhmetKurnaz、RenéLeónSolano和AivinVicquierraSolatorio提供的宝贵意见。 1.Introduction 气候变化影响的加剧凸显了绿色转型的紧迫性——这一向可持续实践的重大转变对于地球的未来至关重要。这一转型预计将会迅速加速,因此政策制定者需要分析其对国家劳动力市场的影响,并制定有效的策略以应对不断变化的环境。了解绿色就业的范围和性质对于指导公共政策至关重要,使政府和组织能够制定针对性的教育、培训和就业策略 ,以支持可持续经济的发展。 全球范围内,绿色职位使用最为广泛的数据来源是美国劳工部职业信息网络(O*NET)于2009年构建的“绿色职业清单”(Dierdorff等,2009)。O*NET的最初方法涉及审查涵盖绿色经济相关广泛工作场所主题的出版物。在评估绿色职位时,研究主要采用两种方法:自上而下的方法,将整个行业或部门归类为绿色;以及自下而上的方法,专注于特定的职业,✲据与这些角色相关的绿色任务或技能来定义绿色职位(Valero等,2021) 。在绿色职位分析的自下而上的方法中,O*NET的分类是最常用的职位检索来源(经合组织,2023)。 绿色职业分类由O*NET开发,已成为塑造绿色经济定量研究的关键工具。在美国,其影响体现在Consoli等人(2016年)、Popp等人(2020年)、Vona、Marin和Consoli(2019年)以及Vona等人(2018年)等研究人员的研究中。该分类还被改编应用于多个地区 ,包括欧盟(Bowen和Hancké2019)、荷兰(Elliott等人2021)、英国(Valero等人2021)、经合组织(OECD)成员国(OECD2023)、越南(Doan等人2023)以及阿✲廷(delaVega、Porto和Cerimelo2024)。在将职业分类为绿色后,研究进一步探讨了绿色工作岗位所需的具体技能和任务,分析了绿色工作岗位创造和分布的趋势,并评估了与绿色转型相关的更广泛经济影响,如生产力、创新和增长。 然而,两个主要问题使得O*NET在全世界范围内尤其是绿色岗位的应用上不够相关。首先,O*NET于2009年建立,最新的主要分类修订完成于2011年(Dierdorff等,2011),相关参考书籍最后更新于2013年(O*NET,2013)。自2009年以来,关于绿色岗位的文献有了显著扩展。其次,O*NET旨在针对美国劳动力市场设计,基于美国的背景识别职业内的任务。这些职位所需的任务和技能取决于生产技术,而这种技术在美国与其他经济体,如低收入和中等收入国家之间可能存在显著差异。 我们的研究旨在通过整合全球视角和纳入当代来源来扩展绿色工作岗位的库存。我们在文献综述中使用Scopus和WebofScience两大广泛应用于学术界获取跨学科大量同行评审出版物的主要文献数据库(Zhu和Liu,2020),对2008年之后发表的文章进行了搜索 。2008年标志着这一时间节点。 关于绿色工作对话的关键时刻,第一个明确定义了这一概念(Stanef-Puicñetal.2022) 。 构建类似于O*NET的分类体系通常涉及对绿色背景下的职位标题进行定性编码,这一方法劳动密集且耗时。然而,越来越多的趋势是利用自然语言处理(NLP),通常结合专家审查,作为在各种背景下识别和分类职位的强大工具,包括绿色经济领域(Chiarello等,2021;Decorte等,2021;Li等,2020;Papoutsoglou等,2022)。一个显著的例子是欧盟委员会于2022年发起的一项倡议,该倡议使用双向编码表示的变换器(BERT )NLP算法结合手动标注来识别欧洲技能、能力、资格和职业分类中的绿色概念(EC,2022)。 与这一基于自然语言处理(NLP)的方法学演变相一致,我们的研究采用了先进的人工智能(AI)管道,具体使用了检索增强生成(RAG)模型(Lewis等,2020)来识别学术文献中的绿色工作岗位。这项技术使我们能够检查远超过手动方法所能处理的大量文献。RAG作为一种有效的NLP方法脱颖而出,它结合了检索和生成基于AI模型的优势,从而解决了基础生成AI中常见的幻觉问题以及缺乏领域特定知识的问题(Gao等,2023 )。尤为重要的是,我们的方法具有可重复性,允许随着有关绿色转型的文献在未来扩展,更新绿色工作岗位的列表。 我们在2024年4月进行搜索时,在2009年1月至2024年4月期间发表的学术文献中最终找到了1,067篇可供分析的文章。我们发现,过去15年里关于绿色转型的学术研究显著扩展了,无论是文章数量还是涉及国家和地区的多样性都得到了提升。2009年,关于绿色转型的文章仅有44篇。到2023年,这一数字增加到了162篇。2009年时,文章几乎仅涵盖了美国、加拿大、中国和欧盟国家。到2023年,研究范围扩大至包括欧洲、高加索地区 、东南亚和非洲。 我们从105篇文章(占1,067篇文章的10%)中识别出了695个独特的绿色工作岗位。我们将我们的绿色工作岗位列表与O*NET中识别的工作岗位进行比较,发现17%的工作岗位标题与O*NET中的完全匹配或几乎完全匹配,同时我们还通过不太精确的匹配识别出了潜在的新岗位标题。 我们的研究显示,基于人工智能的模型可以在大量不断扩大的文献中识别出定量信息,从而应对容量挑战,尽管存在一些局限性。未来的研究和实践应侧重于精炼这些以人工智能为基础的方法,并整合额外的信息来源,以持续更新并扩展绿色工作岗位目录,随着关于绿色转型的文献不断演变。 2.方法 相关文献的识别 在2024年4月,我们使用Scopus和WebofScience的官方应用程序编程接口,对自2009年1月以来发表的文献进行了检索。我们的检索策略基于之前在三项关于绿色就业系统的系统文献综述中验证过的关键词组合(Apostel和Barslund2024;Kozar和Sulich2023;Stanef-Puică等2022)。这些关键词组合包括“绿色职位”、“绿色职业”、“绿色就业”、“可持续职位”、“可持续职业”、“绿色转型职位”和“蓝领绿色职位”。(箱1列出了搜索查询。 )我们在标题、摘要、作者关键词以及数据库中引用的主题中使用了这些关键词进行检索。为了确保结果的可信度,我们将研究范围限制在经过同行评审的文章和评论(以下简称“文章”)。 我们的搜索方法与O*NET的搜索方法有很大不同.虽然O*NET仔细地对参考书中收录的来源进行了索引和分类,但其选择过程的具体细节却描述得较为简略。没有详细的信息说明在收集文章时使用了哪些特定关键词或方法。这一过程涉及收集并审阅超过60篇出版物,包括学术期刊、委托报告、行业白皮书以及政府技术报告。此外,O*NET还对与绿色产业劳动力相关的各种互联网资源进行了大量审查(O*NET2013)。 文献中的绿色职称识别 我们使用RAG模型来模拟传统由研究助理手动标记分析集中文章中绿色职业标题的工作 。这一手动标记过程涉及超过1,000页的文章,资源密集且容易受到人类监督失误、认知偏见和启发式捷径的影响。相比之下,RAG模型提供了稳健且一致的方法。 使用RAG模型的一个显著优势在于结果的可再现性。通过利用OpenAI模型中提供的种子参数,特别是GenerativePre-trainedTransformer4(GPT-4)-0125-preview模型,我们确保了结果的可再现性,从而提供了一种一致性,这是手动标注难以达到的。尽管由于其固有的随机性质,模型无法完全确定,但使用种子参数有助于确保结果在多次运行中具有高度的一致性(Anadkat2023)。此外,GPT-4模型先进的自然语言理解能力使得对文章中讨论的工作头衔所处的具体背景进行细致分析成为可能。这在我们的分析集中尤为重要,因为在许多文章中绿色和非绿色工作经常被提及。模型能够区分上下文并相应地分类工作头衔的能力,相比更不成熟的嵌入式模型如BERT或完全监督的方法如命名实体识别(NER),是一个显著的改进,后者可能无法捕捉到这些细微差别或复杂性 。 我们采用RAG模型,使用嵌入模型识别文章中讨论特定职位标题✁相关部分(片段)。我们在嵌入过程中使用了OpenAI最先进✁text-embedding-3-large模型,该模型具有3072维。虽然分块通常用于规避某些模型上下文窗口✁限制,但我们✁应用中使用了GPT-4 ,其上下文窗口可容纳高达128,000个标记(相当于96,000个单词),并未受到此类限制 ✁影响。相反,我们选择对文本进行分块✁原因在于分块可以显著提高检索内容✁相关性,减少嵌入文本中✁噪声(Yopes等人,2024)。接下来,我们使用GPT-4模型审查提到职位标题✁文章段落,旨在✲据上下文推断作者是否将这些角色归类为绿色就业✁例子。鉴于学术文献中“绿色就业”存在多种竞争性定义(Stanef-Puica等人,2022),我们没有遵循任何单一定义