公开披露的授权 公开披露的授权 政策研究工作报告10429 贫困映射在机器学习的时代 保罗畜栏希思亨德森桑德拉塞戈维亚 贫困和股票全球实践2023年5月 政策研究工作论文10429 文摘 近年来,在贫困制图方面取得了相当大的方法进展,其中大部分都侧重于将现代机器学习方法应用于遥感数据。使用这些方法制作的贫困地图通常共享一个通用的验证程序,该程序通过将基于机器学习的次级贫困估计与基于调查的直接估计进行比较来评估模型性能。虽然是无偏的,但基于监控的粒度估计可能是对真实贫困率的不精确衡量,这意味着不清楚机器学习方法中使用的验证程序是否能够为实际模型性能提供信息。本文通过构建伪人口普查来检验现有模型验证方法的可信度 2015年墨西哥跨世纪调查,用于进行多项基于设计的模拟实验 。研究结果表明,通常用于机器学习方法的验证程序在模型评估方面可能具有误导性,因为它会产生不正确的信息,以便在不同方法和场景中选择可能是最佳估计集的信息。使用替代验证方法,该论文表明,基于机器学习的估计可以与传统的、数据密集型的贫困制图方法相媲美。此外,使用可公开利用的地理参考数据,最接近现有机器学习方法,在对照“真实”贫困率进行评估时表现不佳,在目标模拟中未能优于传统贫困制图方法。 本文是《贫困与公平全球实践》的产物。这是世界银行为开放其研究成果并为世界各地的发展政策讨论做出贡献而做出的更大努力的一部分。政策研究工作文件也张贴在http://www.worldbank.org/prwp网上。可通过pcorralrodas@worldbank.org联系作者 政策研究工作文件系列传播正在进行的工作的结果,以鼓励就发展问题交换意见。该系列的目标是快速获得调查结果,即使演示文稿没有完全完善。这些论文带有作者的姓名,并应相应地引用。本文所表达的发现、解释和结论完全是作者的发现、解释和结论。它们不一定代表国际复兴开发银行/世界银行及其附属组织的观点,也不一定代表世界银行执行董事或其所代表的政府的观点。 研究产生的支持团队 贫困映射在机器学习的时代 保罗•科拉尔∗希思亨德森†和桑德拉塞戈维亚‡§ 关键词:小面积估计、贫困制图、机器学习、卫星图像凝胶的分类:C13、C55C87C15 ∗世界银行集团-贫困与公平全球实践(pcorralrodas@worldbank.org) †美利坚合众国德雷克大学经济与金融系 ‡世界银行集团 §作者感谢世界银行的财政支持。我们感谢罗伊·范德魏德和伊莎贝尔·莫利纳 征求意见。此外,我们感谢BenuBidani,CarlosRodriguez-Castelan和JohanMistiaen为这项工作提供支持和空间。最后,我们感谢全球政策数据解决方案小组。任何错误或遗漏均由作者自行负责。 1介绍 贫困地图提供了次国家一级贫困的细粒度估计数,以加深对特定国家贫困状况的了解,更好地为资源目标提供信息,并支持设计适合当地需求的干预措施(Bedi等人,2007年;埃尔伯斯等人,2007年)。住户调查提供的估计数对特定国家的大片地区足够可靠,但往往缺乏所需的精度和覆盖面,无法在细粒度的地理层面为有针对性的干预措施提供适当的信息。因此,有必要依靠小面积估计。 小面积估计是统计的一个分支,重点是获得比直接从家庭调查中获得的估计数质量更高的估计数。这些小面积估计技术通常将来自家庭调查的数据与来自人口普查、登记册或其他方面的辅助信息结合起来,以产生比仅从调查数据中对样本量较小的地区或群体可能得出的更高质量的估计。由于没有免费的午餐,为了实现这些质量的提高,有必要依靠必须彻底检查的模型假设。 关于小面积估计的文献很丰富,并且已经提出了关于这一基本程序的几种变体。单位级模型在家庭层面进行估计和预测,假设福利度量与协变量之间存在线性关系(Hentschel等人,1998年;埃尔伯斯等人,2003年;莫利纳和拉奥,2010年)。单位一级的模式不太适合调查和普查数据对应不同年份的情况,在发展人口普查不经常进行的国家时,情况往往如此。区域级模型代表了一种可行的替代方案,它同样依赖于线性功能形式,但仅使用感兴趣的地理实体的汇总数据进行估计和预测(Fay和Herriot,1979年;托拉比和拉奥,2014年)。单位背景模型代表了另一种选择,其特征在于估计阶段,其中家庭层面的测量完全建模为区域级特征的线性函数(Nguyen,2012;兰格等人,2018;正树等人,2020年)。1 贫困绘图的最新发展侧重于将机器学习应用于遥感数据,主要是为了应对人口普查信息过时的问题。这些方法还使用调查衍生的福利措施,但以第一阶段为特征,其中机器学习模型适合遥感协变量(例如,来自卫星图像或呼叫详细记录的数据)而不是基于人口普查的协变量。例如,Chi等人(2022年)将来自多个遥感数据源的数据与56个国家的“村庄”财富测量结果相匹配,然后使用梯度提升机拟合预测模型。2然后,他们将该模型应用于所有135个低收入和中等收入国家的人口稠密表面,为每个国家制定粒度贫困地图。个别国家也采用了类似的方法,包括卢旺达(Blumenstock等人,2015年)、塞内加尔(Pokhriyal和Jacques,2017年), 1尽管它们具有理想的特征,但区域级模型提供的精度增益通常非常有限(参见MolinaandMorales(2009))。 2他们的遥感数据包括高分辨率卫星图像、手机数据、地形图和来自Facebook的连接数据。 孟加拉国(斯蒂尔等人,2017年)和伯利兹(赫什等人,2021年)等。3 虽然通常被归入“机器学习”一词,但这种现代贫困地图绘制方法实际上包括几种不同于传统方法的做法。最明显的是 ,现代方法取代了传统上用于绘制贫困图的参数方法的非参数统计方法。此外,现代方法在很大程度上依赖于遥感协变量,而不是从人口普查数据得出的协变量。最后,使用机器学习方法生成的贫困地图通常共享一个通用的验证程序 。此过程的主要特征是通过计算R2从观察到的贫困度量回归到相同地理单位的估计贫困度量。4这一程序中使用的贫困计量往往是直接的、基于抽样的估计数,而不是有关区域的真实贫穷计量。虽然直接估计是无偏见的,但它们可能是对真实贫困衡量标准的不精确估计,这意味着不清楚验证程序是否为实际模型性能提供了信息(Corral等人,2021b )。 在本文中,我们对现代贫困绘图方法的性能进行了更严格的评估。我们的方法包括构建一个伪人口普查(以下简称“人口普查”),用于进行基于设计的模拟实验。人口普查提供了我们希望估计的真实值。我们的实验需要从人口普查中反复抽取调查样本,其中每个样本对抽样的地理区域产生直接贫困估计。对于每个直接估计,人口普查的存在意味着我们观察到与直接估计相对应的真实贫困度量,并且我们使用这些真实贫困度量不仅深入了解基于直接估计的模型验证的可信度,而且在根据真实贫困度量进行验证时,机器学习方法的性能。鉴于人口普查很少收集有关收入或支出的详细数据,我们根据在墨西哥进行的一项大规模家庭调查构建了我们的人口普查:2015年的墨西哥跨年调查。 在展示我们的仿真结果之前,我们讨论了三种方式,其中R2在模型评估方面可能会产生误导。具体来说,我们分析表明R2基于直接估计数是向下倾斜的,它对贫困估计数和参考措施之间的地点和规模差异不敏感,并且它取决于具体情况,因为它受到真实贫困率方差的影响。我们认为,均方误差是理解贫困估计值和参考测量之间关联强度的更好衡量标准。此外,我们认为,最终的关切是了解不同的方法选择如何通过影响目标设定的效率来影响贫困。因此,我们提出了一个目标实验,通过该实验,我们检查替代方案的相对能力 3有关其他近期应用的示例,请参阅Jean等人(2016)、Yeh等人(2020)、Lee和Braithwaite(2020)以及Aiken等人(2022)的示例。 4有关上述程序的示例,请参阅Jean等人(2016),Pokhriyal和Jacques(2017),Steele等人(2017),Lee和Braithwaite(2020),Yeh 等人(2020)或Chi等人(2022)。请注意,一些研究使用类似的程序,但将机器学习模型拟合到家庭级数据,然后将模型的预测汇总到感兴趣的地理单位(Blumenstock等人,2015年;赫什等人,2021年;艾肯等人,2022年)。其他人则依赖于报告基于调查的估计值和模型预测之间的相关系数,这是相似的(参见Smythe和Blumenstock2022)。 在墨西哥数据的背景下绘制减贫方法。 我们的模拟结果可以总结如下。首先,我们发现向下偏差的大小R2基于直接估计是大的,与真实的R2根据所考虑的模型,大约高出35%到50%。我们进一步发现,这种偏差对模型选择具有重要意义,因为直接R2在我们的绝大多数模拟中,错误地识别了适当的估计水平。其次,当使用均方误差基于真实贫困率评估模型性能时,我们发现与标准机器学习实现最接近的近似相对于几个基准模型表现不佳。我们发现,这些性能问题主要是由于遥感协变量相对于基于人口普查的协变量的预测能力有限。最后,我们的目标模拟表明,我们的机器学习实现都没有优于在相同数据下可行的传统贫困映射方法。 我们的论文以Corral等人(2021a)和Corral等人(2022)的工作为基础,他们同样使用墨西哥Intercensal调查来检查几种贫困绘图方法的性能。Corral等人(2021a)专注于传统的贫困绘图方法,没有考虑机器学习方法的性能。虽然Corral等人(2022年)考虑了机器学习方法的性能,但它们的实施仅使用基于人口普查的协变量,因此没有检查依赖于遥感协变量的标准实现的性能。重要的是,我们并不是第一篇评估机器学习方法相对于人口普查数据的性能的论文。虽然Yeh等人(2020)和Chi等人(2022)验证了他们相对于人口普查的模型,但两篇论文都使用了R2作为绩效指标,并专注于财富估计而不是贫困。最后,vanderWeide等人(2022)研究了使用遥感数据的机器学习方法如何重现使用人口普查数据估计的贫困地图。然而,他们并没有将他们的估计与基本事实进行比较。 然后,本文首次尝试严格评估现代贫困绘图方法相对于真实贫困率的表现。在下文中,第2节讨论了我们用于实验的 数据,第3节讨论了我们检查的各种方法,包括机器学习方法和我们用作绩效基准的一些传统贫困映射方法。然后, 第4节考虑了模型验证问题,我们批判性地评估了R2作为验证指标,然后提出一些替代指标。最后,第5节介绍了我们的实验结果,第6节提供了一些结论性评论。 2数据 墨西哥国家统计和地理研究所(INEGI)进行了墨西哥间调查。该样本包括590万个家庭,在国家,州(32个州 )和市(2,457个州)一级具有代表性。它也是人口在50,000或更多居民的地区的代表。收集的管理问卷 有关家庭收入、地理位置、家庭人口统计、住宅特征和经济活动等信息。数据集的大小尤其重要,因为它允许我们绘制足够大和多样化的重复样本。此外,调查收集了所有家庭的详细收入信息,这使我们能够可靠地计算所需的贫困措施,作为我们模拟实验的基础。5 在从Intercensal调查中抽样之前,我们对数据进行了三次修改。首先,由于大量家庭报告没有收入,我们随机删除了这些家庭中的90%。6其次,为了确保所有城市都足够大,所有少于500户的城市都被移除。最后,为了确保所有主要采样单元(PSU)也足够大以进行采样,我们合并了几个相邻的PSU,以便所有PSU都包括至少300个家庭。我们的最终人口普查数据集包括1,865个城市和16,297个PSU的390万个家庭。由此产生的人口普查用于绘制500个调查样本,作为我们模拟实验的基础(Tzavidis等人,2018年)。在下文中,我们将介绍构建这些样本的方法。 我们的抽样程序旨在反映在发展中国家进行的许多面对面家庭调查中使用的标准设计元素(Grosh和Muñoz,1996年) 。墨西哥的32个州构成了样本的预期领域,感兴趣的指标是家庭人均收入。对