您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[世界银行]:通过综合调查和地理空间数据估算四个西非国家的小区域贫困 - 发现报告

通过综合调查和地理空间数据估算四个西非国家的小区域贫困

房地产2024-09-05世界银行G***
AI智能总结
查看更多
通过综合调查和地理空间数据估算四个西非国家的小区域贫困

通过综合调查和地理空间数据估算四个西非国家的小区域贫困 Ifeanyi Edochie, David Newhouse, Nikos Tzavidis, TimoSchmid, ElizabethFoster, Angela Luna Hernandez, Aissatou Ouedraogo, Aly Sanoh, Aboudrahyme Savadogo 政策研究工作文件 10892 Abstract 本文介绍了一种方法论,用于生成西非四个国家(乍得、几内亚、马里和尼日尔)的小区域贫困估计。由于这些国家缺乏近期的人口普查数据,因此将家庭层面的调查数据与网格级别的地理空间数据相结合,后者作为基于模型估计的协变量使用。借助地理空间数据,可以在更细粒度的行政层级上更频繁地报告贫困估计值,并在调查数据不可用的地区进行估计。本文利用布基纳法索最近的人口普查数据作为评估目的。使用相同的调查工具和候选指标获得的估计值进行比较分析。 地理空间变量作为其他四个国家的比较基准,这些国家与近期人口普查数据和单位层次模型下的实证最佳预测值进行对比。对于布基纳法索,使用地理空间数据获得的估计值在采样区域与基于人口普查的估计高度相关,在非采样区域则为中度相关。研究结果表明,在缺乏近期人口普查数据的情况下,利用公开可用的地理空间协变量进行小区域估计是可行的,相较于直接估计可以带来显著的效率提升,并且能提高小区域估计的时间性。 本文出自发展数据组、发展经济以及减贫与平等全球实践部门。它是世界银行为推动研究成果开放获取、并为全球范围内的发展政策讨论做出贡献的一部分努力。政策研究工作论文也已发布于互联网上的http://www.worldbank.org/prwp。如有任何问题,作者可联系dnewhouse@worldbank.org。 政策研究工作论文系列发布正在进行工作中的研究成果,旨在促进关于发展问题的想法交流。该系列的一个目标是在呈现可能不完全打磨的情况下快速传播这些发现。论文署有作者姓名,并应据此引用。本论文中表达的观点、解释和结论完全属于作者。它们不一定代表国际复兴开发银行/世界银行及其关联机构、世界银行执行董事或他们所代表政府的观点。 通过综合调查和地理空间数据估算四个西非国家的小区域贫困 1. Introduction 本文介绍了生成西非四个国家(乍得、几内亚、马里和尼日尔)贫困实验小区域估计(SAE)的方法,以及利用该方法对另一个地区国家(布基纳法索)数据进行评估的过程。SAE是一种统计方法,通过将调查数据与全面覆盖地理辅助数据(协变量)集成,通常源自人口普查、行政记录、遥感或手机数据,以改善调查估计。通过使用统计模型,可以在更准确、精确的地理细分层次上产生估计值,这比仅直接使用调查数据产生的估计值更为关键。更详细的估计对于更好地理解如何针对最贫困的地区实施干预以及监测此类干预的影响至关重要。 表1说明了仅从本研究论文中所探讨的国家的调查数据获取细化地理层面贫困估计值时所面临的问题。估计的标准差系数(cve)通常被用作判断估计统计精确度的一个标准指标。3各国通常会设定一个报告可接受的估计平均值或中位数CVA的最大阈值,实践中这一范围通常在0.15到0.3之间。对于本文关注的国家,可以获取最近一次的和谐生活条件家庭调查(Enquête Harmonisée sur le Conditions de Vie des Ménages, EHCVM)2018年的数据来获得贫困状况的估计值。4对于每个国家在区域层面可获取的数据。霍夫茨-汤普森估计器生成的区域直接估算的中位数cve范围从0.07到0.12,通常在这个范围内是可以接受的,并适合出版。然而,当我们检查目标行政区域集合的贫困率直接估计值,这些区域比地区层级低一或二级时,这些估计值的精确度不足,因此不适合出版。5目标地理区域在乍得指的是国家统计局提供的非官方定义的部门,而在几内亚则是副省长区,在马里和尼日尔则是公社。在这几个层级中,表1报告的直接调查估计的中位数cv(置信区间)超过每个国家0.3的阈值,除了乍得,其为0.27。此外,并非所有目标区域都被调查覆盖,这使得这些区域的直接估计成为不可能。尽管这一情况在所有国家都存在,但在马里尤为突出,那里样本中目标区域的比例低于40%。 国家统计、经济与人口研究机构(INSEED)。调查估计基于具有有效GPS坐标的家庭样本。 通常,小区域估计应用会将调查数据与来自人口普查(或其他人口)数据的协变量结合使用。然而,除了布基纳法索,这些国家上一次进行人口普查的时间是在2009年至2014年间。使用过时的人口普查数据来更新小区域估计可能会导致偏差,例如,如果用于预测的人口普查协变量分布随时间发生了变化。这个问题在应用贫困地图工作中往往未被充分讨论。关于在人口普查间隔期更新贫困估计的方法文献包括Isidro等(2016)、Koebe等(2022)和Arias-Salazar(2023)。在这篇论文中,我们依赖于使用同时期的地理空间协变量(首先由Battese等(1988)提出,参见Nguyen(2012)),在缺乏近期人口普查数据的国家生成小区域贫困估计值。 地理空间数据处理的进步以及其丰富来源使得将其作为小区域模型辅助信息的应用颇具吸引力。Newhouse等人(2023)总结了使用地理空间数据估计财富和贫困的近期文献。Jean等人(2016)、Yeh等人(2020)和Chi等人(2022)展示了卫星数据对于财富指数的预测能力。本文采用了一种基于嵌套误差回归模型(也称为混合模型)的实证最佳预测器(EBP)方法,通常用于小区域估计(Molina和Rao, 2010)。将这种方法应用于利用地理空间协变量预测人口贫困率时,其预测结果与墨西哥、斯里兰卡和坦桑尼亚基于人口普查的最新估计值高度相关(Masaki等人,2022;Newhouse等人,2022)。本文所采用的方法与世界银行的贫困全球实践所推荐的官方方法有所不同,后者基于单位(家庭)层面的混合模型和人口普查微观数据作为协变量(称为人口普查-EBP)。除了使用地理空间而非人口普查协变量的主要差异之外,我们的建模方法仅使用网格单元协变量进行建模,但结果仍然在单位(家庭)级别上进行建模。这就是为什么有时将这种后一种模型称为单位上下文模型的原因。 我们探讨了在中非的乍得、几内亚、马里和尼日尔四个国家使用单位情景模型的可能性,这些国家缺乏近期的人口普查数据。进一步地,我们利用西非另一国布基纳法索的近期人口普查数据可用性,进行了一项评估练习。该练习将基于单位情景模型与地理空间变量相结合的最优预测器获得的贫困头数估计值,与使用最优预测器获得的基于人口普查变量的实际贫困率进行比较。 如上文所述,使用地理空间协变量进行小区域估计的另一种方法是采用区域级模型(Fay-Herriot,1979年),在这种情况下,既有的贫困率直接估计值和地理空间协变量均在目标区域层级进行了聚合。因此,在第4节中所展示的评估过程中,我们也生成了Fay-Herriot模型下的估计值,以此为依据进一步验证了基于单位上下文模型产生的估计值的有效性。 在近期文献中(例如,Corral等人,2021年),在SAE和单位情境模型中使用地理空间数据而非人口普查数据受到了批评。这主要是因为地理空间自变量的聚合可能引入了被遗漏变量偏差(相对于单位层次模型而言)。尽管对于这一问题进行深入讨论超出了本文的范围,但简而言之,这一做法可能导致模型估计结果的不准确性,特别是在地理尺度与研究问题相关性不强或地理空间数据不可靠的情况下。因此,在应用这类方法时,需谨慎考虑其潜在的局限性和可能的偏误来源。 鉴于当前论文范围,意识到使用单位上下文模型对小区域估计可能产生的影响至关重要。 首先,文献中报道的偏斜倾向相对于假设的理想单位(家庭)水平模型以及可用的最新家庭层级人口普查微数据而进行。我们的观点是,如果最近的人口普查数据可用,那么应优先使用人口普查-EBP方法。然而,我们认为,在缺乏最近人口普查数据的情况下,利用地理空间协变量可能构成一种有效的替代方案,直到下一个人口普查数据可用为止,从而为小区域提供最新的估计值。其次,我们观察到单位上下文模型中的偏斜程度取决于用于处理样本权重的方法。在这篇论文中,我们遵循Guadarrama等人的方法来整合权重。这种权重处理方式被设计为调整回归系数和随机效应的估计,以适应样本权重,但在估算方差成分时并不考虑权重。6如下所示,这可能导致小区域估计值之间存在显著差异,对于预测能力较低的模型而言尤为明显,这类模型通常是单位上下文模型。在第4节中,我们探讨了带权和无权的单位上下文模型版本,以评估这种变化对估计结果的影响。第三点值得注意的是,由于地理空间数据处理方式导致聚合不可避免,地理空间协变量在网格大小下被处理并链接至调查数据的地理层级,对估计结果有影响。鉴于此,以及考虑到地理空间协变量只能作为描述收入(或消费)等常用建模变量的代理,可以合理推测单位上下文模型可能表现出较低的预测能力和更高的不确定性,与单个(家庭)层面模型相比。然而,因为所关注的估计器是基于个体层次预测的聚合,显然,较低的预测能力和更高的不确定性可能不会实质性地降低使用单位上下文模型获得的小区域估计的质量。最后,如同任何基于模型的方法一样,模型构建、变量选择和残差诊断至关重要。数据分析师可以通过尽可能精细的空间层次处理地理空间数据来缓解聚合的影响,以最大化有效样本量。然而,这可能会增加观察到地理空间数据异常值的风险。应用转换可能有助于使数据更符合函数形式线性及误差项正态分布的假设。如常,进行模型诊断极为关键。 此外,Corral等人(2021)报告了在单位情景模型下估计不确定性度量时存在的问题。从我们的角度来看,如果模型假设成立,参数化的bootstrap均方误差估计器将提供在假设模型下有效的不确定性估计器。由于真实的数据生成过程未知,我们无法预先知道模型假设被违反的程度,无论假设的是哪种模型。在第4节中,我们展示了来自布基纳法索的数据比较结果,这些数据使用单位情景模型下的参数化bootstrap方法计算覆盖率,并将基于普查的估计视为真实值,与其它估计方法的覆盖率进行对比。对于抽样区域而言,在单位情景模型下的抽样区域覆盖率为,略低于直接估计值,略高于区域级别模型获得的覆盖率,这表明通过参数化bootstrap方法获得的不确定性度量在本案例中是合理的。 综上所述,我们倾向于避免对单元上下文模型的工作效果进行明确的判断。相反,我们认为,在缺乏最近的人口普查数据的情况下,结合地理空间数据的单元上下文模型可以作为一种替代手段,用于替代使用过时数据的做法。 人口普查数据。布基纳法索最近进行的人口普查提供了评估这一方法宝贵的机会。如同所有社会经济分析应用一样,不同方法的表现将取决于国家背景以及所应用的调查和辅助数据的特性。因此,对估计结果的评估至关重要。 论文结构如下。第2节描述了数据来源和将地理空间数据与调查数据整合的过程。第3节展示了小区域方法的核心内容,包括模型选择与评估、小区域估计、均方误差估计以及评估所有关注国家的小区域估计值的方法。第4节通过使用布基纳法索最近的普查和调查数据进行评估练习,允许我们将包含地理空间协变量的小区域估计与基于普查微观数据的协变量信息生成的小区域估计进行比较。评估练习的结果为地理空间数据在小区域估计中的应用提供了新的见解,并激励我们在四个缺乏最新人口普查数据的其他国家中使用单位上下文模型与地理空间数据相结合的方法。第5节使用单位上下文模型为所有国家提供实验点和不确定性估计。论文以总结主要发现和进一步研究领域结束。 2. 数据源和地理空间数据集成 在这篇论文中,我们使用了地理空间共变量,因为如表1所示,在四个重点国家中,几内亚在2014年、尼日尔在2012年、乍得和马里分别在2009年进行了最近的人口普查。如果存在更近的人口普查数据,那么使用这些数据将是首选方案。例如,人口普查中常规收集的多个变量