AI智能总结
关于撒哈拉以南非洲农业生产力和福利的纵向跨国数据集 托马斯 · 本茨 ·菲利普 · 沃尔堡 政策研究工作文件 10976 Abstract 自2008年以来,世界银行的生活标准测量研究—整合农业调查(LSMS-ISA)项目一直支持收集具有全国代表性、纵向多主题的家庭调查数据,以向研究人员和政策制定者提供有关撒哈拉以南非洲地区生活标准的信息。这些调查在农业部门方面保持了独特的重点,收集了详细的地块级数据和关于农业活动的信息,并衡量了多个国家成千上万的小农和家庭的经济社会状况。本文呈现了一个 harmonized 的面板数据集。 (来自2008年至2021年LSMS-ISA在七个撒哈拉以南非洲国家——埃塞俄比亚、马拉维、马里、尼日尔、尼日利亚、坦桑尼亚和乌干达进行的调查:从2008年到2021年。该数据集包括超过20万个农业地块观察数据,超过40万个个体,以及约59000个家庭。)HP允许对农场、家庭和个人随着时间推移和跨国家的变化进行深入分析。它非常适合研究农业、经济发展和福利结果之间的动态关系的学者。 这是发展数据组和发展经济学部门的成果。它是世界银行为提供研究开放访问并为全球发展政策讨论做出贡献的一项更大努力的一部分。政策研究工作论文也在网上发布于http://www.worldbank.org/prwp。作者可以联系tbentze@worldbank.org。 该政策研究工作论文系列旨在传播正在开展的工作成果,以促进关于发展问题的想法交流。该系列的一个目标是在尚未完全完善的情况下迅速发布这些成果。这些论文附有作者姓名,并应相应地引用。本文中表达的观点、解释和结论完全是作者的意见。它们不一定代表国际复兴开发银行/世界银行及其附属组织的观点,也不代表世界银行执行董事会成员或他们所代表的政府的观点。 关于撒哈拉以南非洲农业生产力和福利的纵向跨国数据集 托马斯 · 本茨1, Philip Wollburg1,2 关键字:农业生产率 ; 家庭福利 ; 面板数据 ; 家庭调查 ; 经济发展 ; 1) 背景和总结 农业部门在许多低收入国家集中了大量劳动力和经济产出。在世界上最贫困的地区——撒哈拉以南非洲,农业部门占劳动大军的比例约为50%(世界银行,2021)。该地区的农业部门,进而影响国内食品生产,主要由小规模农户主导。世界上许多极端贫困人口依赖农业部门获取收入和保障食物安全。农业部门对于减贫、粮食安全、结构性转型以及更广泛的经济发展的重要性得到了广泛认可(Dercon和Gollin,2014;Gollin,2010)。因此,研究这一领域已成为发展研究、政策干预和投资决策的重要关注点(Adamopoulos和Restuccia,2020;Gollin等,2014, 2013;Gollin和Udry,2021;Restuccia和Rogerson,2013)。 然而,在数据landscape中长期存在一个持续存在的高质量数据缺失问题,这些问题对于指导研究和政策干预至关重要(Carletto,2021)。世界银行的生活标准测量研究—综合农业调查(LSMS-ISA)项目旨在解决这一缺口。LSMS-ISA项目包括国家级和次国家级代表性、纵向且多主题的家庭调查,特别关注农业生产。自2008年起,这些调查由国家统计局(NSOs)在世界银行生活标准测量研究(LSMS)团队的支持下实施。LSMS-ISA数据被认为是非洲次撒哈拉地区农业生产和生产率调查微观数据的首要来源,并且其与生计、家庭收入、贫困和粮食安全的关系(Wollburg等,2024a,2024b)。 在本文中,我们呈现了来自七个撒哈拉以南非洲国家(埃塞俄比亚、马拉维、马里、尼日尔、尼日利亚、坦桑尼亚和乌干达)的标准化LSMS-ISA调查面板数据。该标准化面板数据集(以下简称HP)涵盖了超过20万个农业地块观察数据、超过40万个个体和5.8万个家庭,时间跨度从2008年到2021年。这些数据代表了这些国家的全国情况,这些国家占撒哈拉以南非洲人口的39%,以及近三分之一的贫困人口(Azevedo, 2011;世界银行, 2022)。此外,这些数据还代表了研究国家的家庭和小农农业部门。数据的时间序列性质使得可以追踪家庭、农场和个人随时间的变化。HP为接近5.8万个农业和非农业家庭以及超过40万个个体提供了纵向记录,使研究人员能够分析随时间变化的模式、动态和发展轨迹。 The HP 数据集是从世界银行微观数据图书馆(World Bank’s Microdata Library)发布的LSMS-ISA 调查公开数据中编制而成的(参见表1)。HP 包含四个数据集,分别包含家庭记录、个人记录、农业地块以及每个地块上的作物记录。HP 的准备过程包括构建、清理和 harmonize 接近150 个农业、家庭和个人指标,以创建一个适用于分析的数据资产。这些数据集可以完全与可公开获取的原始LSMS-ISA 数据集合并使用,使用户能够添加来自LSMS-ISA 调查的额外变量,并根据研究需求自定义数据集。家庭、社区和农场的位置进行了地理参考,因此这些数据集可以丰富地理空间信息。HP 数据集允许在家庭、社区和农场层面进行高度细分的分析。 在家庭、个体、地块及地块作物水平上进行数据收集。这使得我们能够对地块内、农场内以及家庭内的动态有细致入微和具体化的理解。多主题的数据特性有助于综合不同领域的信息来研究复杂问题。HP可以用于生成广泛的分析,从分析农业生产力的驱动因素和影响到衡量多个部门和地区的生活水平和福利趋势。本数据描述将概述从数据收集到处理的步骤,包括数据结构的说明及其使用建议。 2) 方法 调查数据收集 HP由世界银行LSMS-ISA项目支持,涵盖七个国家总计29轮具有代表性的纵向多主题家庭调查。这些调查于2008年至2021年间实施,不同国家的时间框架各不相同(见图1)。HP包括埃塞俄比亚的5轮数据(2011-2022年)、马拉维的4轮数据(2010-2019年)、马里的2轮数据(2014-2017年)、尼日尔的2轮数据(2011-2014年)、尼日利亚的4轮数据(2010-2019年)、坦桑尼亚的5轮数据(2008-2019年)以及乌干达的8轮数据(2008-2019年)。这些调查的原始数据文件可以在世界银行的微观数据图书馆中公开获取并下载(参见表1)。 注:时间轴中箱的长度对应于调查时间框架。坦桑尼亚第四波涵盖了更新的家庭样本,而第五波对应于2019/2020年NPS数据,包含性别 disaggregated 数据。 LSMS-ISA 调查设计时特别关注农业作为撒哈拉以南非洲地区主要生计来源。为了更好地捕捉农业生产数据,调查基于农业生产周期分两次进行实地访问,一次在播种后,另一次在收获后。例外的是坦桑尼亚,在那里进行了一次实地访问,涵盖了整个季节;而乌干达的双季模式意味着两次访问分别覆盖不同的季节。 进行的家庭调查发放了家庭问卷、个体问卷、农业问卷和社区问卷。HP数据集侧重于农业生产与生产率,主要包括来自农业、家庭和个体问卷的变量(详见“调查工具”部分)。调查问卷在埃塞俄比亚(第4轮和第5轮)、马拉维(第3轮和第4轮)、马里(第2轮)、尼日利亚(第3轮和第4轮)、坦桑尼亚(第3轮、第4轮和第5轮)以及乌干达(第7轮和第8轮)进行了面对面访谈,并通过Survey Solutions平台记录为计算机辅助个人访谈(CAPI)。在乌干达,第2轮使用了CWEST软件进行CAPI,第3轮至第5轮使用了SurveyBe。在所有其他调查轮次中,使用了纸质辅助个人访谈(PAPI)或计算机辅助现场访谈(CAFE)。 除了问卷调查之外,还记录了其他变量,并作为公开可用数据集的一部分提供。首先,在许多情况下,使用手持GPS设备测量了农业地块或地块的面积,因为受访者报告的土地面积被证明是不可靠的(Carletto等,2013)。此外,在调查过程中,通过GPS对 Household、农业地块和社区进行了地理参考,这使得能够将调查数据与空间数据集成起来。 抽样、跟踪和测量权重 家庭调查由LSMS-ISA支持的设计旨在在全国范围内代表该国的家庭人口。为此,采用分层两阶段概率抽样方法,以人口普查区(EAs)作为主要抽样单位,按规模比例概率选取。调查分层包括城乡级别和行政区域。在每个选定的EA中,所有家庭都会被列出,并从完整的名单中随机抽取。人口和住房普查用于作为抽样框架。一旦对家庭进行了抽样并进行了访谈,就会构建抽样权重并提供给数据用户,以允许计算出全国及次级地区的代表性估计值。这些权重反映了某一家庭被选入样本的逆概率。对于每项调查,即对于任何国家-波段,家庭权重大约总和为该国家庭的总人口数。权重已调整以考虑流失、纳入分离家庭(即由现有家庭分裂形成的新家庭)以及事后分层,以确保它们总和等于已知的人口总数。 家庭调查包括在HP中的一系列面板调查,这些调查随着时间推移在不同轮次中追踪不同的单位。在埃塞俄比亚、尼日尔和尼日利亚,家庭随着时间被追踪;在马拉维、乌干达和坦桑尼亚,个人被追踪。在追踪个人的同时,他们所居住的家庭也被追踪。在马里,行政编制区(EAs)被追踪,并且在每个波次中重新抽样家庭。农业地块无法在波次之间(甚至在乌干达的情况下,在季节之间)进行追踪,但在埃塞俄比亚和马拉维,地块在波次之间被追踪;而在乌干达,地块在每个波次内的季节之间被追踪。根据世界农业普查计划的定义,地块是指“一种土地所有权类型完全包围的地块,周围有其他土地、水(…)或其他不属于持有物的特征”,而地块上的“特定作物或作物组合的种植部分”则被称为“田块”(联合国粮食及农业组织,2015)。在马拉维,我们假设“花园”与地块等同。在坦桑尼亚,“田块”的定义类似于地块,但地块并未明确追踪。 在某些情况下,如在马拉维或坦桑尼亚,从样本家庭中分离出来形成新家庭的个人会被跟踪,我们不得不决定由哪个家庭继承ID。 前一波次。例如,在马拉维,分户家庭如果与之前的位置距离在一定范围内(200米),则继承身份证号。如果有多户满足此条件,则追踪之前的户主。若未找到先前的户主,则选择最多被追踪个体的家庭来继承户主ID。若上述条件均不满足,则无人继承该ID。在坦桑尼亚采取类似的方法,但没有距离要求。总体而言,分户家庭继承其原家庭所在的电子行政区域(EA)和街区(stratum)的ID。 在以下部分,我们将详细讨论每个国家所包含的调查波次及其相应的调查设计方面。 • 在埃塞俄比亚,埃塞俄比亚社会调查(ESS)的数据跨越了五个调查时期:2010/2011、2012/2013、2014/2015、2017/2018 和 2021/2022。第四波时整个面板数据被刷新,因此家庭不会被追踪超过三个波段。分户家庭(见附录SI.I)在埃塞俄比亚未被追踪。面板调查的第一波(ESS 2010/2011)仅设计为代表农村地区和小城镇,从第二波(ESS 2012/2013)开始样本扩展到城市地区。此外,样本的第一至第三波设计为代表该国人口最多地区的居民(中央统计局和生活标准测量研究(LSMS),世界银行,2021)。在第五波中,调查更名为埃塞俄比亚经济社会面板调查(ESPS)。 • 在马拉维,来自综合户庭面板调查(IHPS)的数据涵盖了四个时期:2009/2010、2012/2013、2015/2016 和 2018/2019。所有分户家庭在马拉维均得到了追踪。在第三波次中,由于预算限制,随机选取的一半 enumeration areas(EA)被从样本中移除(National StatisticalOffice, 2020)。该面板数据与综合户庭调查(IHS)并行进行,后者是一项横截面调查项目。IHPS 中抽样的原始家庭是 IHS 2010/2011 的子集。 •农业科学在马里 , 数据来自(EACI) 是由两个时期的数据组成的:2014年和2017年。在马里,最小 的跟踪单位是EA(行政区域),因此家庭并未随时间进行追踪。调查覆盖