行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

通过 AI 驱动的文本挖掘识别绿色职位的扩展清单

公用事业 2024-09-19 世界银行 Mascower

核心观点

本研究旨在扩展绿色职位标题的清单，并利用自然语言处理技术，特别是检索增强生成（RAG）模型，从学术文献中识别绿色职位。研究发现，过去15年来关于绿色转型的学术研究显著扩展，文章数量和涉及国家和地区的多样性都得到了提升。研究最终识别出695个独特的绿色工作岗位，并与美国劳工部职业信息网络（ONET）中的职位进行比较，发现17%的工作岗位标题与ONET中的职位标题完全匹配或几乎完全匹配，同时还有许多潜在的新岗位标题尚未被O*NET所识别。

关键数据

搜索时间：2024年4月
文献数据库：Scopus和Web of Science
文献数量：1,067篇
全文获取数量：567篇
提及绿色职位标题的文章数量：105篇
识别出的绿色职位标题数量：695个
与ONET匹配的绿色职位标题数量：116个（占ONET总职位标题数量的17%）

研究结论

研究结果表明，基于人工智能的模型可以在大量不断扩大的文献中识别出定量信息，从而应对容量挑战，并扩展绿色工作岗位的清单。
研究发现，许多新兴的绿色职位尚未被O*NET所识别，例如“电动汽车机械师”、“能源部门数据工程师”、“肉类科学家”等。
研究还识别出了25个不同的职业头衔集群，这些集群可以解释为绿色经济部门，其中包括O*NET中未提及的“绿色人力资源”部门。
研究结果表明，先进自然语言处理模型在识别新兴绿色职位角色方面的有效性，为绿色经济转型的持续讨论做出了重要贡献。

局限性

并非所有文章的全文文本都可用，可能遗漏了一些绿色职位。
出版偏见可能导致绿色职业的出现不被提议的分类体系准确捕捉到。
研究采用了二元分类法，将工作分为绿色或非绿色，未能捕捉到某些工作的复杂性。
缺乏背景信息和缺少专家评审可能导致错误地识别绿色职位。

通过 AI 驱动的文本挖掘识别绿色职位的扩展清单米歇尔 · 帕利斯基 · 古涅斯 · 阿切克 · 托马斯 ·加伊德罗维奇 ·马奇 · 雅库博夫斯基 · 埃夫 · 萨恩 · 纳斯政策研究工作文件 10908 Abstract 这项研究通过纳入全球视角并使用当代数据源来扩展绿色职位标题的库存。它利用了自然语言处理，特别是检索增强生成模型，来识别绿色职位标题。过程始于使用Scopus和Web of Science的官方API搜索2008年以后发表的学术文献。搜索结果产生了1,067篇文章，从中识别出了695个独特的潜在绿色职位标题。检索增强生成模型利用了生成预训练模型高级文本分析的能力，变压器4，提供了一种可重复的方法来对各种绿色经济部门内的职位进行分类。研究将这些职位标题聚类成25个不同的部门。这种分类与现有的框架高度一致，如美国劳工部的职业信息网络，并且建议了潜在的新类别，如绿色人力资源。研究结果展示了先进自然语言处理模型在识别新兴绿色职位角色方面的有效性，为绿色经济转型的持续讨论做出了重要贡献。这篇论文是由世界银行的社会保护与就业全球实践部门所产。作为一项更广泛努力的一部分，世界银行致力于提供其研究成果的开放访问，并为全球发展政策讨论做出贡献。政策研究工作论文也在网上发布于http://www.worldbank.org/prwp。作者可以联系snasozen@worldbank.org和draju2@worldbank.org。该政策研究工作论文系列发布正在进行中的研究成果以促进关于发展问题的交流与讨论。该系列的一个目标是在快速传播这些发现的同时，即使展示尚未完全完善。这些论文附有作者姓名，并应据此引用。本报告中的观点、解释和结论完全是作者的观点。它们不一定代表国际复兴开发银行/世界银行及其附属组织的观点，也不代表世界银行执行董事会或其所代表的政府的观点。通过 AI 驱动的文本挖掘识别绿色职位的扩展清单米歇尔 · 帕利斯基· 古涅斯 · 阿切克 ·托马斯 · 加伊德罗维奇 · 马奇 · 雅库博夫斯基 · 埃夫 ·萨恩 · 纳斯关键词：人工智能，文本挖掘，职业分类，绿色就业，绿色经济JEL 代码: J23, Q52, O14 1. Introduction 气候变化影响的加剧凸显了绿色转型的紧迫性——这一向可持续实践的重大转变对于地球的未来至关重要。这一转型预计将会迅速加速，因此政策制定者需要分析其对国家劳动力市场的影响，并制定有效的策略以应对不断变化的环境。了解绿色就业的范围和性质对于指导公共政策至关重要，使政府和组织能够制定针对性的教育、培训和就业策略，以支持可持续经济的发展。全球范围内，绿色职位使用最为广泛的数据来源是美国劳工部职业信息网络（O*NET）于2009年构建的“绿色职业清单”（Dierdorff等，2009）。O*NET 的最初方法涉及审查涵盖绿色经济相关广泛工作场所主题的出版物。在评估绿色职位时，研究主要采用两种方法：自上而下的方法，将整个行业或部门归类为绿色；以及自下而上的方法，专注于特定的职业，根据与这些角色相关的绿色任务或技能来定义绿色职位（Valero等，2021）。在绿色职位分析的自下而上的方法中，O*NET 的分类是最常用的职位检索来源（经合组织，2023）。绿色职业分类由O*NET开发，已成为塑造绿色经济定量研究的关键工具。在美国，其影响体现在Consoli等人（2016年）、Popp等人（2020年）、Vona、Marin和Consoli（2019年）以及Vona等人（2018年）等研究人员的研究中。该分类还被改编应用于多个地区，包括欧盟（Bowen和Hancké 2019）、荷兰（Elliott等人2021）、英国（Valero等人2021）、经合组织（OECD）成员国（OECD 2023）、越南（Doan等人2023）以及阿根廷（de la Vega、Porto和Cerimelo 2024）。在将职业分类为绿色后，研究进一步探讨了绿色工作岗位所需的具体技能和任务，分析了绿色工作岗位创造和分布的趋势，并评估了与绿色转型相关的更广泛经济影响，如生产力、创新和增长。然而，两个主要问题使得O*NET在全世界范围内尤其是绿色岗位的应用上不够相关。首先，O*NET于2009年建立，最新的主要分类修订完成于2011年（Dierdorff等，2011），相关参考书籍最后更新于2013年（O*NET，2013）。自2009年以来，关于绿色岗位的文献有了显著扩展。其次，O*NET旨在针对美国劳动力市场设计，基于美国的背景识别职业内的任务。这些职位所需的任务和技能取决于生产技术，而这种技术在美国与其他经济体，如低收入和中等收入国家之间可能存在显著差异。我们的研究旨在通过整合全球视角和纳入当代来源来扩展绿色工作岗位的库存。我们在文献综述中使用Scopus和Web of Science两大广泛应用于学术界获取跨学科大量同行评审出版物的主要文献数据库（Zhu和Liu, 2020），对2008年之后发表的文章进行了搜索。2008年标志着这一时间节点。关于绿色工作对话的关键时刻，第一个明确定义了这一概念(Stanef - Puic ñ et al. 2022)。构建类似于O*NET的分类体系通常涉及对绿色背景下的职位标题进行定性编码，这一方法劳动密集且耗时。然而，越来越多的趋势是利用自然语言处理（NLP），通常结合专家审查，作为在各种背景下识别和分类职位的强大工具，包括绿色经济领域（Chiarello等，2021；Decorte等，2021；Li等，2020；Papoutsoglou等，2022）。一个显著的例子是欧盟委员会于2022年发起的一项倡议，该倡议使用双向编码表示的变换器（BERT）NLP算法结合手动标注来识别欧洲技能、能力、资格和职业分类中的绿色概念（EC，2022）。与这一基于自然语言处理（NLP）的方法学演变相一致，我们的研究采用了先进的人工智能（AI）管道，具体使用了检索增强生成（RAG）模型（Lewis等，2020）来识别学术文献中的绿色工作岗位。这项技术使我们能够检查远超过手动方法所能处理的大量文献。RAG作为一种有效的NLP方法脱颖而出，它结合了检索和生成基于AI模型的优势，从而解决了基础生成AI中常见的幻觉问题以及缺乏领域特定知识的问题（Gao等，2023）。尤为重要的是，我们的方法具有可重复性，允许随着有关绿色转型的文献在未来扩展，更新绿色工作岗位的列表。我们在2024年4月进行搜索时，在2009年1月至2024年4月期间发表的学术文献中最终找到了1,067篇可供分析的文章。我们发现，过去15年里关于绿色转型的学术研究显著扩展了，无论是文章数量还是涉及国家和地区的多样性都得到了提升。2009年，关于绿色转型的文章仅有44篇。到2023年，这一数字增加到了162篇。2009年时，文章几乎仅涵盖了美国、加拿大、中国和欧盟国家。到2023年，研究范围扩大至包括欧洲、高加索地区、东南亚和非洲。我们从105篇文章（占1,067篇文章的10%）中识别出了695个独特的绿色工作岗位。我们将我们的绿色工作岗位列表与O*NET中识别的工作岗位进行比较，发现17%的工作岗位标题与O*NET中的完全匹配或几乎完全匹配，同时我们还通过不太精确的匹配识别出了潜在的新岗位标题。我们的研究显示，基于人工智能的模型可以在大量不断扩大的文献中识别出定量信息，从而应对容量挑战，尽管存在一些局限性。未来的研究和实践应侧重于精炼这些以人工智能为基础的方法，并整合额外的信息来源，以持续更新并扩展绿色工作岗位目录，随着关于绿色转型的文献不断演变。 2. 方法相关文献的识别在2024年4月，我们使用Scopus和Web of Science的官方应用程序编程接口，对自2009年1月以来发表的文献进行了检索。我们的检索策略基于之前在三项关于绿色就业系统的系统文献综述中验证过的关键词组合（Apostel和Barslund 2024；Kozar和Sulich 2023；Stanef-Puică等 2022）。这些关键词组合包括“绿色职位”、“绿色职业”、“绿色就业”、“可持续职位”、“可持续职业”、“绿色转型职位”和“蓝领绿色职位”。（箱1列出了搜索查询。）我们在标题、摘要、作者关键词以及数据库中引用的主题中使用了这些关键词进行检索。为了确保结果的可信度，我们将研究范围限制在经过同行评审的文章和评论（以下简称“文章”）。我们的搜索方法与 O * NET 的搜索方法有很大不同.虽然O*NET仔细地对参考书中收录的来源进行了索引和分类，但其选择过程的具体细节却描述得较为简略。没有详细的信息说明在收集文章时使用了哪些特定关键词或方法。这一过程涉及收集并审阅超过60篇出版物，包括学术期刊、委托报告、行业白皮书以及政府技术报告。此外，O*NET还对与绿色产业劳动力相关的各种互联网资源进行了大量审查（O*NET 2013）。文献中的绿色职称识别我们使用RAG模型来模拟传统由研究助理手动标记分析集中文章中绿色职业标题的工作。这一手动标记过程涉及超过1,000页的文章，资源密集且容易受到人类监督失误、认知偏见和启发式捷径的影响。相比之下，RAG模型提供了稳健且一致的方法。使用RAG模型的一个显著优势在于结果的可再现性。通过利用OpenAI模型中提供的种子参数，特别是Generative Pre-trained Transformer 4（GPT-4）-0125-preview模型，我们确保了结果的可再现性，从而提供了一种一致性，这是手动标注难以达到的。尽管由于其固有的随机性质，模型无法完全确定，但使用种子参数有助于确保结果在多次运行中具有高度的一致性（Anadkat 2023）。此外，GPT-4模型先进的自然语言理解能力使得对文章中讨论的工作头衔所处的具体背景进行细致分析成为可能。这在我们的分析集中尤为重要，因为在许多文章中绿色和非绿色工作经常被提及。模型能够区分上下文并相应地分类工作头衔的能力，相比更不成熟的嵌入式模型如BERT或完全监督的方法如命名实体识别（NER），是一个显著的改进，后者可能无法捕捉到这些细微差别或复杂性。我们采用RAG模型，使用嵌入模型识别文章中讨论特定职位标题的相关部分（片段）。我们在嵌入过程中使用了OpenAI最先进的text-embedding-3-large模型，该模型具有3072维。虽然分块通常用于规避某些模型上下文窗口的限制，但我们的应用中使用了GPT-4，其上下文窗口可容纳高达128,000个标记（相当于96,000个单词），并未受到此类限制的影响。相反，我们选择对文本进行分块的原因在于分块可以显著提高检索内容的相关性，减少嵌入文本中的噪声（Yopes等人，2024）。接下来，我们使用GPT-4模型审查提到职位标题的文章段落，旨在根据上下文推断作者是否将这些角色归类为绿色就业的例子。鉴于学术文献中“绿色就业”存在多种竞争性定义（Stanef-Puica等人，2022），我们没有遵循任何单一定义。相反，我们指示模型判断作者是否认为这些职位是绿色的，例如它们是否涉及绿色经济、可持续性或气候变化缓解等领域。我们特意未向模型提供任何预设的绿色就业分类，以防止先入为主的效果并促进基于上下文的无偏评价。我们将在附录中提供RAG模型管道阶段的更详细描述。在RAG模型实施过程的最终阶段，特别利用了AI的生成能力（图1）。尽管AI具备广泛的训练知识，我们的模型战略性地避免使用这些知识。生成功能并未用于引入或推断训练数据中的信息，而是用于解释和分析呈现给它的文本。当模型识别出可能讨论绿色工作岗位的文本部分时，它会利用其自然语言理解能力来分析给定的文本。目标是确认文章作者是否确实提到了具体的职位名称，并且这些名称是否在绿色背景下进行讨论。我们使用的模型与命名实体识别（NER）这一自然语

点击免费查看完整报告

通过 AI 驱动的文本挖掘识别绿色职位的扩展清单

核心观点

关键数据

研究结论

局限性

你可能感兴趣

通过人工智能驱动的文本挖掘识别扩展的绿色职位清单

【电报解读】各国逐渐重视AI安全问题，保护用户数据成为当务之急，这两种技术途径可对AI生成内容进行判别，这家公司可实现AIGC生成文本的检测识别

量化专题报告：基于AI文本挖掘的波动率预测模型-既达万顷，又需见微

通过使用 AI 扩展采购和供应链管理的可能性

通过使用 AI 扩展采购和供应链管理的可能性

基于文本数据的机器学习识别金融危机

基于财报文本的情感语调的分析：DeepSeek辅助识别财务瑕疵

DeepSeek辅助识别财务瑕疵——基于财报文本的情感语调的分析

巴西：扩展当地1800万美元的差rates付款人职位（Cupom）

第九届挑战赛C2-基于文本挖掘的旅游目的地印象分析