您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [世界银行]:通过整合调查和地理空间数据对四个西非国家的贫困进行小面积估算 - 发现报告

通过整合调查和地理空间数据对四个西非国家的贫困进行小面积估算

房地产 2024-09-01 世界银行 陳寧遠
报告封面

通过综合调查和地理空间数据估算四个西非国家的小区域贫困 伊费亚尼·埃奇奇、戴维·纽豪斯、尼科斯·茨瓦迪斯、蒂莫·施密德、伊丽莎白·福斯特、安吉拉·卢娜·埃尔南德斯、阿茜塔·乌德朗戈、阿莱·桑诺、阿布杜拉赫·萨瓦多戈 政策研究工作文件 10892 Abstract 本文提出了一种方法论,用于生成西非四个国家(乍得、几内亚、马里和尼日尔)的小区域贫困实验估计。由于这些国家缺乏近期的人口普查数据,因此将家庭层面的调查数据与网格级别的地理空间数据相结合,将这些地理空间数据作为模型估计中的协变量。利用地理空间数据能够更频繁地在细分的行政级别上报告贫困估计,并且可以在没有调查数据可用的地区进行估计。本文利用布基纳法索的最近人口普查数据作为评估目的。使用相同的调查工具和候选人在布基纳法索获得的相同方法得到的估计值,本文进一步探讨了这种方法的有效性和准确性。 基于地理空间的自变量与另外四个国家进行比较,这些国家的数据分别通过最近的人口普查数据以及单元模型下的实证最佳预测器获得。对于布基纳法索而言,使用地理空间数据获得的估计值在采样区域中与基于人口普查的估计值高度相关,在非采样区域则相关性适中。研究结果表明,在缺乏最新人口普查数据的情况下,利用公开可获取的地理空间自变量进行小区域估计是可行的,相较于直接估计可以带来显著的效率提升,并能提高小区域估计的时效性。 本论文由发展数据组、发展经济学以及贫困与平等全球实践部门共同完成。这是世界银行为促进研究成果的开放访问并参与全球发展政策讨论所作出的努力的一部分。世界银行的研究论文也通过网址http://www.worldbank.org/prwp在线发布。如有任何问题,作者可联系dnewhouse@worldbank.org。 政策研究工作论文系列发布正在进行工作的研究成果,旨在促进关于发展问题的想法交流。该系列的一个目标是在可能不太完美的展示下快速传播发现,以鼓励这样的交流。论文作者的名字会出现在文章中,并应据此引用。本文中表达的观点、解释和结论完全属于作者。它们不一定代表世界银行及其附属机构、或者世界银行执行董事或他们所代表的政府的观点。 通过综合调查和地理空间数据估算四个西非国家的小区域贫困 1. Introduction 本文介绍了生成西非四国(中非、几内亚、马里和尼日尔)贫困实验小区域估计(SAE)的方法,以及利用该地区另一个国家(布基纳法索)的数据进行评估的实践。SAE是一种统计方法,通过将调查数据与全面的辅助数据(如人口普查、行政记录、遥感或手机数据所衍生的变量)整合来改善调查估计。使用统计模型实现数据集成,以产生更准确、精确的小地理细分区域估计,这比仅直接使用调查数据进行估计更为有效。更细粒度的估计对于更好地理解如何针对最贫困区域实施干预措施,以及监测此类干预措施的影响至关重要。 表1说明了仅从本研究论文中所研究的国家的调查数据获得细分地理层面贫困估计值时存在的问题。估计的标准差变系数(cve)通常被用作评估估计统计精确度的一个指标。3各国通常会设定一个最大阈值用于报告估计的均值或中位数CVA,实际操作中这一阈值通常在0.15到0.3之间。对于本文关注的国家,可以通过2018年的整合家庭生活条件调查(Enquête Harmonisée sur le Conditions de Vie des Ménages, EHCVM)获取最近的贫困状况调查估计值。4对于每个国家,在区域层面可获取的数据。霍尔沃茨-汤普森估计器生成的区域直接估计的中位数cve(通常用于出版接受范围)从0.07到0.12不等。然而,当我们检查目标行政区域集的贫困率直接估计值,这些值位于地区级别以下一个或两个层次时,这些估计值的精确度不足以为出版使用。5目标地理区域分别在乍得由国家统计局提供的非正式定义部门给出,而在几内亚则是下属区,而在马里和尼日尔则是市镇。在这几个层级上,表1中报告的直接调查估计的中位数cve对于每个国家(除了乍得)都超过0.3的阈值,乍得为0.27。此外,并非所有目标区域都被调查覆盖,因此这些区域的直接估计无法进行。尽管这种情况在所有国家都有发生,但在马里尤为突出,未抽样区域特别普遍,该国目标区域中有不到40%被样本覆盖。 国家统计、经济与人口研究机构(INSEED)。调查估计基于拥有有效GPS坐标的家庭样本。 通常,小区域估计应用会将调查数据与来自人口普查(或其他人口)数据的协变量相结合。然而,除了布基纳法索之外,这些国家上一次进行人口普查的时间是在2009年至2014年间。使用过时的人口普查数据来更新小区域估计可能会导致偏斜估计,例如,如果用于预测的人口普查协变量分布随时间变化了。这一问题在实际贫困地图绘制工作中往往没有得到充分讨论。关于在两次人口普查间期更新贫困估计的方法的文献包括Isidro等人(2016),Koebe等人(2022)和Arias-Salazar(2023)。在这篇论文中,我们依赖于使用当前的地理空间协变量(如Battese等(1988)首次展示的那样,见Nguyen(2012)),在缺乏近期人口普查数据的国家生成小区域贫困估计值。 处理地理空间数据的进步以及丰富地理空间数据源的应用使得其作为小区域模型辅助信息的使用颇具吸引力。Newhouse等(2023)总结了近来关于使用地理空间数据进行财富和贫困小区域估计的文献综述。Jean等(2016),Yeh等(2020),以及Chi等(2022)展示了卫星数据对于财富指数具有预测性。本文采用了一种常用于小区域估计的方法,基于嵌套误差回归模型(也称为混合模型)下的经验最佳预测器(EBP)方法(Molina与Rao,2010)。当应用于利用地理空间协变量预测人口贫困率时,这种方法在墨西哥、斯里兰卡和坦桑尼亚所得到的预测结果与基于最新人口普查的估计值高度相关(Masaki等,2022;Newhouse等,2022)。我们在本文中所采用的方法与世界银行贫困全球实践所推荐的官方方法有所不同,后者基于单位(家庭)级别的混合模型下的EBP方法,并以人口普查微数据为协变量(简称为“人口普查-EBP”)。主要的区别在于,除了使用地理空间而非人口普查作为协变量外,我们的建模方法仅使用网格单元的协变量,但结果仍然在单位(家庭)级别上进行建模。这就是为什么有时将后者称为单位上下文模型的原因。 我们探讨了在中非的乍得、几内亚、马里和尼日尔四个国家使用单位上下文模型的情况,这些国家缺乏近期的人口普查数据。我们进一步利用西非另一个国家布基纳法索的近期人口普查数据可用性,进行了一项评估练习。该评估练习将基于单位级模型获得的贫困人口头数估计值与使用人口普查变量的实证最佳预测器获得的估计值进行比较,同时也将与在包含地理空间变量的单位上下文模型下使用实证最佳预测器获得的贫困率进行比较。 如上文所述,利用地理空间协变量进行小区域估计的另一种方法是采用区域级模型(Fay-Herriot,1979年),在这种情况下,既考虑了贫困率的直接估计值,也考虑了地理空间协变量,并将这些数据聚合至目标区域级别。因此,在第4节展示的评估过程中,我们还基于Fay-Herriot模型生成了估计结果,以此为单位情境模型产生的估计结果的有效性提供更多证据。 近期文献中对SAE和单位情境模型中使用地理空间数据而非人口普查数据这一做法提出了批评(例如,Corral等人,2021年)。这主要是因为地理空间协变量的聚合可能会引入被遗漏变量偏差(相对于单位层面模型而言),从而影响结果的准确性。尽管对这一问题进行深入讨论超出了本文范围,但这一批评强调了在应用此类数据时需谨慎处理潜在的偏斜风险。 鉴于当前论文范围,意识到使用单位上下文模型对小区域估计可能产生的影响至关重要。 首先,文献中报道的偏见相对于假设的理想单位(家庭)水平模型和可用的家庭层面人口微数据而言是相对的。我们的观点是,如果最近的人口数据可用,那么应优先使用人口-EBP方法。然而,我们提出,在缺乏近期人口数据的情况下,利用地理空间协变量可能构成一种有效的替代方案,直到下一次人口普查数据可用为止,以提供最新的小区域估计。其次,我们观察到单位上下文模型中的偏移程度取决于用于处理样本权重的方法。在这篇论文中,我们遵循Guadarrama等人(2018年)的方法来引入权重。这种权重处理方式旨在调整回归系数和随机效应的估计值以适应样本权重,但在估计方差成分时并不考虑权重。6如下所示,这可能导致小区域估计值之间出现显著差异,对于预测能力较低的模型(通常是单元上下文模型的情况)而言,这种差异尤为明显。在第4部分,我们探讨了带权和无权的单元上下文模型版本,以评估其对估计结果的影响。第三,鉴于地理空间数据处理方式导致聚合不可避免,值得注意的是,地理空间协变量被处理并与调查数据关联的地理层级(网格大小)对估计结果有影响。由于这一原因,以及考虑到地理空间协变量只能作为描述收入(或消费)等通常用于建模的变量的代理,可以合理假设单元上下文模型可能显示出较低的预测能力和更高的不确定性,相较于户水平模型。然而,因为感兴趣的估计器是基于个体层次预测的聚合,显然,较低的预测能力和较高的不确定性并不会显著降低使用单元上下文模型获得的小区域估计的质量。最后,如同任何基于模型的方法一样,模型构建、变量选择和残差诊断至关重要。数据分析师可以通过尽可能精细地处理地理空间数据来减轻聚合的影响,以最大化有效样本量。但这可能会增加观察到地理空间数据异常值的风险。数据转换有助于使数据更符合函数形式为线性且误差项正态分布的假设。如常,模型诊断的使用至关重要。 此外,Corral等人(2021)报告了在单位上下文模型下估计不确定性测量值时存在的问题。从我们的角度来看,如果模型假设得到满足,参数化的Bootstrap均方误差(MSE)估计器将提供在假设模型下有效的不确定性估计。由于真实的数据生成过程未知,我们无法先验地知道模型假设被违反的程度,无论所假设的是哪种类型模型。在第4节中,我们通过比较在单位上下文模型下使用参数化Bootstrap方法得出的覆盖率率与基于普查估计的真实值,以及与其他估计器的结果进行对比,展示来自布基纳法索的数据结果。对于抽样区域,单位上下文模型下的覆盖率略低于直接估计,略高于基于区域模型的估计,这表明在本情况下通过参数化Bootstrap方法获得的不确定性估计是合理的。 简而言之,我们倾向于避免对单元上下文模型是否表现良好或不佳做出明确的声明。相反,我们认为,在缺乏最近的人口普查数据的情况下,结合地理空间数据的单元上下文模型可以被视为使用过时数据的一种替代方案。 人口普查数据。布基纳法索最近的人口普查提供了评估这一方法宝贵的机会。如同每项SAE应用一样,不同方法的表现将取决于国家背景以及所应用的调查和辅助数据的特性。因此,对估计结果的评估至关重要。 论文组织如下。第2部分描述了数据来源和将地理空间数据与调查数据整合的过程。第3部分展示了小区域方法的核心内容,包括模型选择与评估、小区域估计、均方误差估计以及评估所有关注国家的小区域估计结果的方法。第4部分通过使用布基纳法索最近的普查和调查数据进行评估练习,允许我们将包含地理空间协变量的小区域估计与使用来自普查微观数据的协变量信息生成的小区域估计进行比较。评估练习的结果为地理空间数据在小区域估计中的应用提供了新的见解,并激励在缺乏最新人口普查数据的四个剩余国家中使用单位上下文模型与地理空间数据。第5部分使用单位上下文模型对所有国家进行了实验点和不确定性估计。论文以主要发现总结和进一步研究领域结束。 2. 数据源和地理空间数据集成 在这篇论文中,我们使用地理空间共变量,因为根据表1所示,在四个焦点国家中,几内亚在2014年、尼日尔在2012年、乍得和马里分别在2009年进行了最近的人口普查。如果存在更近的人口普查数据,那么使用这些数据将是更优的选择。例如,人口普查中常规收集的多个变量,如家庭规模、教育程度和就业领域,已被证明对家庭福祉具有高度预测性。基于近期人口普查