政策研究工作文件10512 Poverty的小区域估计和Wealth使用Geosp数据 到目前为止,我们赚了吗? 大卫纽豪斯 开发Economics开发数据框架p2023年6月 政策研究工作文件10512 Abstract unk是对精选的ppplic的非技术介绍 结合survey和geosp数据来生成小地区财富或过度财富的估计。来自卫星和phones的数据 当根据人口普查数据进行评估时, 它们在基于模型的估计中的使用削弱了准确性 Although 证据很少,基于interpretablefee的模型TURS似乎至少可以预测以及得出的估计值 FROMConvolutionalNeuralNetworksEstimatesfor sampled区域比fi更准确 由于信息丰富的采样,非采样导致的区域。一般来说,最多使用地理空间数据估计fitf 分类水平possibleTreebased机器学习方法似乎比 线性混合模型。使用地理空间的小区域估计数据可以影响社会援助的设计, 明确地说,当现有的瞄准系统不足时设计的。 unkispaperisaproductoftheDevelopmentmentDataGroupDevelopmentEconomicsItispartofalargere夫ortbythe 世界银行将提供对其研究成果的访问,并为发展和 在httpwwwworldbankorgprwp上,PolicyResearchWorkingPapers也可以在Web上进行操作。unke作者可能请致电dnewhouseworldbankorg。 unke政策研究工作文件系列传播正在进行的工作的内容,以鼓励交流有关发展的想法 issuesAnobjectiveoftheseriesistogetthefindingsoutquicklyevenifthepresentationsarelessthanfullypolishedWepaperscarrythe 作者的名字,并应相应地引用。本文中表达的unkefi编码、解释和结论完全是这些作者的意见不一定代表国际复兴开发银行世界银行和 它的组织,或世界银行执行董事或他们所代表的政府。 由研究支持团队制作 使用地理空间数据对贫困和财富的小区域估算: 到目前为止,我们学到了什么?1 大卫纽豪斯世界银行集团 1JEL代码:C53,I32。关键词:贫困,小区域估计,贫困制图,卫星数据,机器学习 我们感谢ParthaLahiri鼓励他写这篇文章,WilliamBell,ChrisElbers,CarolinaFranco和JoshMerfeld对2022年小面积估算会议的参与者先前草案的有用评论 在马里兰大学学院公园,以及HaishanFu和KeithGarrett的支持和鼓励。 1Introduction 使用地理空间数据作为小区域估计的辅助数据是一个古老的想法。 最初在三十五年前由Battese、Harter和Fuller1988证明,他们结合了调查来自Landsat卫星的早期图像数据,以预测玉米和大豆下的面积 在爱荷华州的11个县生产。该论文在小面积估计领域被广泛引用 统计数据,截至2023年5月,GoogleScholar上有近1100个引用。但该论文以另一个开创性的贡献,因为它是第一个开发和应用众所周知的嵌套错误单元 水平模型,具有在目标区域水平指定的条件随机效应,用于估计 小领域。从1988年到2015年左右,经济学家和统计学家投入了相当大的努力以各种方式完善这一模型,莫利纳和 Rao2010使用模拟方法估计贫困人数率等手段以外的指标 技术。同时,Elbers、Lanjouw和Lanjouw2003的出版物使用了略有不同的单位级模型,在世界银行推广了小面积估算的使用。 尽管如此,直到最近,这段时间几乎所有的应用程序都使用了人口普查或其他行政数据作为辅助数据,忽略地理空间数据作为辅助数据的潜在来源 哪些调查可以“借用力量”来改善对社会经济数据的衡量。 地理空间数据在2010年代中期被重新发现为辅助数据的潜在来源,随着计算能力和存储使地理空间数据能够广泛公开; 开始定期对收集地理坐标的平板电脑进行调查;作为一个新的 数据科学家、经济学家和统计学家的产生发现了地理空间数据的潜力提高社会经济测量。反过来,这引发了人们对结合调查和卫星的兴趣用于小区域估计的指标。对这种类型的“数据”使用适当的方法 融合“是重要的,因为小区域贫困估计对目标和 对公共干预措施的评估,可以更广泛地揭示经济地理学。在 与此同时,部分原因是机器学习算法的最新进展,不同的学科和作者采取了非常不同的方法来结合地理空间数据和调查 用于小区域估计的数据。 本文提供了从这些相对较新的文献中选择的证据的非技术综述。它 建立在最近的两个评论伯克,2021年,麦克布莱德等人,2022年,但只关注小财富和贫困的区域估计,特别关注统计差异 methodologyacrossstudiesInparticularitignoredsomeoftheexcellentrecentworkonagricultural 作物和产量Lobell等人,2020年,Erciulescu等人,2019年,劳动力Merfeld等人,2022年和其他指标。现在有大量文献记录了对财富和贫困的估计 来自调查和地理空间数据与来自调查或人口普查的基准相关。这些相关性的强度差异很大,取决于无数的因素,包括 国家背景、预测方法、预测目标区域、确切指标 被预测,地理空间变量的选择,以及训练和评估数据的性质。 由于文献相对较新,因此尚未就最佳预测达成共识。 方法在不同的背景下。此外,在相同的情况下,替代预测方法的比较地理环境仍然很少见,这些比较的一些例子还没有 已在同行评审的期刊上发表。因此,下面提供的大多数证据跨替代模型的比较应解释为基于有限的暂定先验 来自特定环境的证据。 这篇综述分为三个部分。第一部分首先非常简要地描述了一些 许多公开可用的地理空间指标。然后,它回顾了来自快速增长的选定研究文献使用地理空间数据评估小区域财富和贫困估计的准确性, 与基于人口普查的估计相比,记录了几项研究之间的强相关性。I然后简要谈谈三个相关问题:准确性对训练数据性质的敏感性;地理空间数据预测福利随时间变化的能力比变化更有限 跨空间;以及采样和非采样目标区域之间的重要区别考虑估计的准确性。第二部分侧重于不同的比较 横截面预测的统计方法类型,包括地理空间的性质 用于预测的特征和不同类型的模型。第三部分简要讨论了 最近的重要论文描述了如何将调查和地理空间数据结合起来以针对穷人多哥的家庭Aiken等人,2022年。最后一节总结了关键点和 进一步研究的建议。 2利用地理空间数据对贫困和财富的小区域估计 a什么类型的地理空间要素是公开可用的? 地理空间数据通常来自卫星、移动电话或互联网活动。卫星与手机和互联网活动相比,指标有一些关键优势,包括 大量指标的公共可用性,在许多情况下来自公开可用的图像由Sentinel2和Landsat卫星提供。专有高分辨率卫星图像来自Maxar、Planet、Airbus等公司也可以直接用作输入 深度学习模型,或作为输入得出可解释的特征,如建筑足迹、道路、和车辆。与呼叫详细记录不同,基于卫星的指标通常覆盖整个国家和因此避免选择偏差。除了仅从移动电话呼叫详细记录CDR 代表手机用户,出于隐私原因也更难获得。然而,CDR 在某些情况下可以提供更多的信息指标,如位置信息,手机 行为、连接质量和设备类型。Twitter使用情况等Internet记录也可以提供信息Tonneauetal2022。来自网络平台的信息也存在选择偏差,然而,由于发展中国家只有一部分人口使用它,很难 估计这种偏差来源对估计的影响程度。 来自卫星图像的各种地理空间指标已经公开 可以在GoogleEarthEngine,MicrosoftPlanetaryComputer和其他免费访问中找到 网站Theseofferaccesstoseveralclimaterelatedvariablesaswellasahostofpredictivefeatures 例如夜间灯光,土地分类,从透水表面切换到不透水表面的年份,净初级产量、手机放置、各种气候和温度的估计 变量,Sentinel5P卫星的污染估计,各种土壤质量措施,以及无数其他地理空间指标。Meta还公开发布了相对财富指数,基于关于Chi等人的开创性工作。2021。从Worldpop、Meta或 谷歌也是小区域估计的关键投入,因为它们都是福利的有力预测指标对于将预测汇总到更高的行政级别也是至关重要的。 当可以获得有关建筑物足迹的信息时,这些信息也很有价值。Worldpop已经使关于非洲大部分地区可用的建筑足迹的统计信息Dooley等人,2020年;这些是由Ecopia使用Maxar图像派生。Microsoft行星计算机现在还包含建筑物 包括欧洲和美洲大部分地区以及非洲部分地区在内的各个国家的足迹数据和东南亚。谷歌最近发布了一个新版本的开放建筑层覆盖非洲 和东南亚,德国航空航天中心最近发布了《世界解决方案》 三维建筑足迹全球数据库(Esch等人,2023年)。Liu等人(2023年)最近显示可以使用Sentinel1和Sentinel2图像准确地建模建筑物的足迹,但是 结果指标数据尚未公开发布。建筑物足迹的动态信息应该在不久的将来变得越来越可用。此外,各种数据 农业和粮食安全通过粮农组织的手拉手地理空间平台在线发布 包含有关粮食安全、作物和植被的信息。最近国家以下各级对作物类型的估计产量估计目前仅适用于少数国家,但覆盖面可能会扩大 在未来几年显着。总体而言,令人印象深刻的地理空间图像和指标是已经公开可用,未来几年应该会有更多的网络。 b地理空间数据跨空间准确预测贫困和财富 一些研究已经研究了财富或贫困的预测是如何从调查和 地理空间数据与基于调查或人口普查的贫困和福利衡量标准进行比较。准确性通常使用R进行评估2定义为 12 1 2 2 Where是目标区域,是目标地区贫困或福利的参考衡量标准是 目标区域i的预测值,以及是目标区域的平均值。一些研究报告了 预测量和参考量之间的皮尔逊相关性,可以平方得到R2 表1列出了实际或隐含的R2几项研究报告的值。 关于地理空间数据如何预测贫困和财富的重要早期论文是Jean等人2016。这论文使用卷积神经网络CNN形式的“深度学习”来预测福利, 使用从GoogleEarth拍摄的白天图像和夜间灯光的光度 撒哈拉以南非洲的国家。CNN的每一层都相继将原始图像过滤成更多和更浓缩的抽象特征,直到最后一层代表预测的亮度值。 Jean等人(2016)将CNN的倒数第二层的特征转移到山脊回归估计被扣村庄的资产指数或人均消费价值。 在Jean等人2016中,目标领域是调查集群,参考措施是预测的集群的财富指数或人均消费的平均值取自家庭 调查并从训练样本中扣留,以及是从卷积生成的预测 神经网络模型。样本外R2通过调查交叉验证进行评估,从 人均消费为037到055,资产财富为055到075。但是,因为 表1:不同来源的精度比较 Country 目标区域指示器 调查数据 验证数据来源估计R2反对验证 方法2 数据 来源 孟加拉国 Upazilla 预测 2014 基于人口普查的ELLBSEM 095 斯蒂尔等人(2017 消耗量 估计数 布基纳法索公社 预测贫困2018EHCVM 基于人口普查的EBPEBP估计数 063 Edochie等人。(即将到来) 马达加斯加 公社 Aseet指数 人口普查 基于设计的仿真XGB 080 Merfeld和Newhouse 使用人口普查 2023 马拉维 传统 贫困率 2019HIS 基于人口普查的EBPBSEM 081 VanderWeide等人。 Authority 估计数 2022 马拉维 传统 资产指数 人