授权公开披露 授权公开披露 全球劳动力数据库用户手册 了解、使用和与全球劳工数据库交互的指南 2024年5月15日 目录 致谢4 1.GLD5简介 1.1.什么是GLD?5 1.2.GLD的目标是什么?5 1.3.谁是目标受众?6 1.4.指导GLD的原则是什么?6GLD覆盖和扩展6 透明度和数据访问8 数据质量和验证8 1.5.与类似数据工作的互补性8 1.6.可持续性9 2.GLD内容、存储和访问10 2.1.GLD10中收集的数据和信息 2.2数据存储平台和访问规则13世界银行GLD服务器13Datalibweb15 微数据库17 GitHub20 数据和信息存储摘要25 3.GLD协调方法26 3.1.界定GLD协调的界限26 3.2.协调守则26的结构 3.3.GLD数据字典29 调查和ID模块29 地理37 人口统计42 迁移48 教育53 培训58 劳动60 4.验证和质量检查107 4.1.如何验证协调?107 4.2.GLD单一调查质量检查指南108 4.2.3.Block2-GLD外部检查111 4.3.GLD调查系列质量检查指南127 5.使用GLD130 5.1.如何使用统一dta文件130 5.2.如何使用统一代码?130 5.3.如何引用GLD134 6.为GLD的质量和扩展做出贡献136 6.1.与GLD136合作的一般规则 6.2.如何与GLD136共享新的原始数据 6.3.如何分享GLD136未涵盖的调查的统一 64.如何与GLD合作进行新的协调137 65.如何纠正/扩展现有的协调137 66.如何更正和扩展国家调查详细信息141 67.如何纠正和扩展GLD工具141 68.如何就任何其他问题进行沟通142 Acknowledgements 本用户手册由MarioGroert(经济学家/统计学家)在MaddaleaHoorati(高级经济学家,TTL)的指导下编写 。该手册受益于同行评审者JoseMotes(数据科学家)和MichaelWeber(高级经济学家)的丰富评论。团队要感谢乔布斯集团的领导,IaWaler(前任经理)和FedericaSaliola(现任经理)对GLD项目在整个开始和实施阶段的总体指导。特别感谢DioMerotto(首席经济学家)鼓励和支持该项目,并感谢JoseMaelRomero,AdreasEberhard,YaBorgeois和整个乔布斯团队的持续反馈和宝贵意见。最后,我们感谢专门的顾问团队,他们通过不断的数据挖掘,修订和质量改进来建立GLD:AgeloGabrielleFeradezSatos,AlexadraQiñoesNra,JyigTog,TomMosher,EleaCasaovasNavarro和DavidAlejadroBermdezVasqez。 1.GLD简介 1.1.什么是GLD? 全球劳动力数据库(GLD)是世界银行将劳动力调查和家庭调查与相关劳动力模块相协调的举措的一部分。它的任务是创建一个开放和透明的协调,并提供足够的背景信息,以允许数据分析师使用,更改和扩展协调。从这个意义上讲,背景信息超出了代码,调查表和报告,包括记录在协调过程中了解到的调查细节,这些细节在其他地方没有记录。记录对货币或行政区划的更改的示例。 GLD的目标是成为一个开源数据库,这意味着尽可能多的人应该可以访问尽可能多的信息。它还努力做到透明,使创建统一的所有步骤可追溯,从原始数据采集到统一的可变编码。因此,统一过程的所有步骤都已记录在案并提供,包括调查文件,代码和注释,使用户能够充分理解调查设计和统一中的选择。代码和文档的可用性使用户能够自定义和添加不在GLD协调中的变量。大多数协调工作都为用户提供了“接受或放弃”的选择,但是GLD的公开透明方法允许用户在任何时候跟踪和偏离标准的协调,无论他们希望跳到哪里,都可以领先。 最后,GLD跟进并扩展了先前的统一家庭调查倡议,即国际收入分配数据库(I2D2)。I2D2被全球监测数据库 (GMD)取代,但该数据库侧重于家庭预算调查,并未统一劳动力调查。GLD的创建是为了弥补调查类型覆盖范围中的这一差距并对其进行补充,通过扩大的词典和对劳动力指标的更严格验证,更加关注劳动力市场信息。 1.2.GLD的目标是什么? 劳动力调查是一个关键的数据源,用于生成关键的劳动力市场指标,这些指标由决策者监控,目标和评估的个人特征分类。跨时间和空间附加,用于比较和基准。GLD的目标是使世界银行员工和全球研究人员更容易,可追溯和可复制的估算过程。 生成基于调查的指标时的一个主要问题是跨国可比性和耗时的统一过程,这需要详细阅读数据文件和调查材料 ,以了解应编码什么以及如何编码,结构化和一致的统一方法以及许多验证步骤。 因此,GLD的第一个目标是创建一个统一的调查数据库,其中包含全面可靠的劳动力市场信息,可用于跨国和随时间比较的分析工作。通过创建统一的输出,该数据库可以输入到其他产品中,这些产品可以自动化分析过程,例如国家一级的工作诊断。 GLD的第二个目标是允许用户超越标准数据集,支持他们深入研究他们的分析和比较,以找到更深入的见解。 通过提供所有代码和技术报告,并记录在协调过程中发现的调查的所有复杂性,以便用户可以专注于回答他们需要回答的问题,而不是弄清楚行政边界在哪一年发生了变化以及样本量如何因此受到影响。 1.3.谁是目标受众? GLD的目标用户包括国际发展界的研究人员,数据分析师和从业人员,统计局,劳动部,经济和计划部以及其他分析劳动力市场数据的相关政府机构,以监视和分析劳动力市场结果,并为劳动力政策的设计提供信息。这些用户可以利用GLD的两种用途。 第一个用途是“原样”协调。这是指用户获取由数据团队准备的协调数据文件,并使用这些变量(或其组合)进行分析。 第二个用途是“修正”或“黑客”协调。这是指用户想要超越准备好的协调。例如,这可能是因为他们对调查中的另一个特定变量感兴趣,该变量出现在调查表中,但在大多数调查中并不常见,因此没有统一。在这种情况下,用户仍然可以利用协调文件来标准化大多数变量(因为教育水平或劳动状态等概念可能仍然相关),但另外添加其他变量。这种使用需要编辑协调代码和/或在特定点添加到它,以满足用户的目的,而不需要他们完全处理调查。 1.4.指导GLD的原则是什么? GLD遵循一套原则来指导其开发和维护,在本介绍中,我们重点关注(a)GLD的覆盖范围和扩展,(b)透明度和数据访问,(c)数据质量和验证。 GLD覆盖和扩展 截至2024年4月,GLD进行了来自24个国家(1个高收入国家,9个中高收入国家,11个中低收入国家和9个低收入国家)的345项调查。表1概述了这些国家(通过三位数的ISO代码),调查数量和GLD涵盖的年份。表下面的图1显示了GLD中国家的位置。 表1-按国家/地区划分的GLD覆盖率,调查次数和时间范围 Country 调查次数 年的范围 ARM 9 2014-2022 BGD 5 2005-2016 BOL 6 2015-2021 BRA 37 1981-2022 CHL 13 1990-2017 COL 23 1996-2021 EGY 14 2006-2019 ETH 4 1999-2021 GEO 6 2017-2022 IDN 30 1989-2019 IND 15 1983-2022 LKA 23 1992-2021 MEX 16 2005-2020 MNG 17 2002-2022 NPL 3 1998-2017 PAK 15 1992-2020 PHL 23 1997-2019 RWA 5 2017-2021 SLE 1 2014-2014 THA 36 1985-2021 TUR 20 2000-2019 TUN 15 1997-2017 TZA 6 2000-2020 ZAF 13 2008-2020 ZMB 9 2008-2022 ZWE 5 2011-2022 图1-突出显示GLD国家的世界地图 注:这张地图上显示的边界不是权威的,不应被视为世界银行的认可。 国家的最初选择是由同一国家随着时间的推移提供多种LFS驱动的。此后,GLD团队制定了选择指南,试图平衡GLD在收入群体和地区之间的国家覆盖率,并通过最新调查使GLD保持最新。 确保更新GLD意味着一旦GLD中每个国家都有最新调查,就可以统一这些调查。一般来说,如果一项调查是前四年的调查(例如Procedre,至少从2020年到2024年)。因此,在区域之间和区域内,选择增加GLD的调查应反映出不仅要在所有收入水平上进行调查,而且要为所有人进行最新调查的努力。 但是,获取新的调查主要取决于数据的可用性,即是否有可能获得新的数据,或者各国的国家统计局(NSO)是否不允许共享调查数据。因此,如果一个区域的国家统计局分享的数据很少,GLD由于缺乏调查而造成的不平衡将无法纠正。同样,如果国家统计局不进行或仅很少进行劳动力调查,则尽管我们尽了最大努力,但其国家的GLD条目仍将丢失或减少。 透明度和数据访问 此外,GLD团队产生的所有输出(协调代码和调查细节的文档,在协调过程中做出的选择)都在GitHub上自由共享, GitHub是一个协作软件开发和版本控制的网络平台。 根据数据许可法规,对原始和统一的微观数据的访问在逐个调查的基础上受到限制。这些限制主要源于国家统计局发布的数据隐私要求以及其他相关考虑。这种限制对于确保遵守管理敏感调查数据的机密性和使用的法律框架至关重要。遵守这些协议不仅维护了道德标准,而且还保护了数据库中信息的完整性和机密性。 GLD数据存储在由GLD团队管理的服务器上。该团队的目标是尽可能使用我们至少可以与世界银行同事共享的数据源。数据也可以通过datalibweb和微数据库访问。目前,除埃及的数据外,世界银行的所有工作人员都可以访问所有GLD调查,埃及的数据发布者要求仅通过其门户访问原始数据(因此也是统一的数据)。有关这方面的更多详细信息,请参见第2.2节数据存储平台和访问规则部分。 数据质量和验证 GLD成为跨国比较和基准测试的可靠来源的目标的核心是确保数据的最高质量。只有这样,才能利用大型数据集并将GLD用作自动化分析工作流程的输入。 为了验证协调,GLD团队有三个主要工具。首先是在协调时与国家办事处同事和国家统计局工作人员进行的验证 。GLD协调人与具有领域知识的相关同事保持联系,以了解调查(他们可以记录和分享的知识),并确保将原始数据的变量映射到协调变量是明智的。 统一完成后,有两个自动质量检查程序。第一个检查调查的完整性和与外部来源的一致性(例如,计算出的劳动力参与是否符合ILO,WDI报告)。第二个检查随着时间的推移在一个国家进行的一系列调查,以发现该系列中任何意外的跳跃。 最后,通过与GLD团队或在线GitHub平台的直接交流,用户可以提醒团队协调中已经通过的问题。然后,更新协调的过程开始,以尝试尽快纠正任何问题。有关所有质量检查的更详细说明,请参见第4节。验证和质量检查。 1.5.与类似数据工作的互补性 在世界银行内部,还有另外两个协调举措:(1)I2D2对LFS和家庭调查的协调,已经活跃了十多年,最近已经停止;(2)全球监测数据库(GMD)仅协调主要用于贫困和不平等分析的家庭预算调查。 TheGMDthusincludesvariablesonhouseholdconsumptionandcalculatescertainincomeandconsumptionaggregatesthatarenotpresentinGLD.Ontheotherhand,GLDhasmoredetailedlabor 变量,特别是使用ISIC和ISCO代码尽可能深入地提供(在可能的情况下)行业和职业信息。由于两者都使用一组共同的变量,因此两者都可以用作自动化分析工具的输入。例如,