授权公开披露 授权公开披露 政策研究工作文件10976 关于撒哈拉以南非洲农业生产力和福利的纵向跨国数据集 托马斯·本茨·菲利普·沃尔堡 发展经济学发展数据集团2024年11月 政策研究工作文件10976 Abstract 自2008年以来,世界银行的生活标准测量研究—整合农业调查(LSMS-ISA)项目一直支持收集具有全国代表性、纵向多主题的家庭调查数据,以向研究人员和政策制定者提供有关撒哈拉以南非洲地区生活标准的信息。这些调查在农业部门方面保持了独特的重点,收集了详细的地块级数据和关于农业活动的信息,并衡量了多个国家成千上万的小农和家庭的经济社会状况。本文呈现了一个harmonized的面板数据集。 (来自2008年至2021年LSMS-ISA在七个撒哈拉以南非洲国家——埃塞俄比亚、马拉维、马里、尼日尔、尼日利亚、坦桑尼亚和乌干达进行的调查:从2008年到2021年。该数据集包括超过20万个农业地块观察数据,超过40万个个体,以及约59000个家庭。)HP允许对农场、家庭和个人随着时间推移和跨国家的变化进行深入分析。它非常适合研究农业、经济发展和福利结果之间的动态关系的学者。 这是发展数据组和发展经济学部门的成果。它是世界银行为提供研究开放访问并为全球发展政策讨论做出贡献的一项更大努力的一部分。政策研究工作论文也在网上发布于http://www.worldbank.org/prwp。作者可以联系tbentze@worldbank.org。 该政策研究工作论文系列旨在传播正在开展的工作成果,以促进关于发展问题的想法交流。该系列的一个目标是在尚未完全完善的情况下迅速发布这些成果。这些论文附有作者姓名,并应相应地引用。本文中表达的观点、解释和结论完全是作者的意见。它们不一定代表国际复兴开发银行/世界银行及其附属组织的观点,也不代表世界银行执行董事会成员或他们所代表的政府的观点。 由研究支持团队制作 关于撒哈拉以南非洲农业生产力和福利的纵向跨国数据集 托马斯·本茨1,PhilipWollburg1,2 JEL代码:O12,I32,P36 关键字:农业生产率;家庭福利;面板数据;家庭调查;经济发展; 1世界银行,生活水平测量研究,发展经济学数据集团,罗马,00184,意大利。2瓦赫宁根大学发展经济学集团,瓦赫宁根,6706KN,荷兰。 免责声明:本文中的发现、解释和结论完全由作者提出。它们不一定代表世界银行及其附属组织的观点,也不一定代 表世界银行执行董事或他们所代表政府的观点。 1)背景和总结 农业部门在许多低收入国家集中了大量劳动力和经济产出。在世界上最贫困✁地区——撒哈拉以南非洲,农业部门占劳动大军✁比例约为50%(世界银行,2021)。该地区✁农业部门,进而影响国内食品生产,主要由小规模农户主导。世界上许多极端贫困人口依赖农业部门获取收入和保障食物安全。农业部门对于减贫、粮食安全、结构性转型以及更广泛✁经济发展✁重要性得到了广泛认可(Dercon和Gollin,2014;Gollin,2010)。因此,研究这一领域已成为发展研究、政策干预和投资决策✁重要关注点(Adamopoulos和Restuccia,2020;Gollin等,2014,2013 ;Gollin和Udry,2021;Restuccia和Rogerson,2013)。 然而,在数据landscape中长期存在一个持续存在✁高质量数据缺失问题,这些问题对于指导研究和政策干预至关重要(Carletto,2021)。世界银行✁生活标准测量研究—综合农业调查(LSMS-ISA)项目旨在解决这一缺口。LSMS-ISA项目包括国家级和次国家级代表性、纵向且多主题 ✁家庭调查,特别关注农业生产。自2008年起,这些调查由国家统计局(NSOs)在世界银行生活标准测量研究(LSMS)团队✁✯持下实施。LSMS-ISA数据✲认为✁非洲次撒哈拉地区农业生产和生产率调查微观数据✁首要来源,并且其与生计、家庭收入、贫困和粮食安全✁关系(Wollburg等,2024a,2024b)。 在本文中,我们呈现了来自七个撒哈拉以南非洲国家(埃塞俄比亚、马拉维、马里、尼日尔、尼日利亚、坦桑尼亚和乌干达)✁标准化LSMS-ISA调查面板数据。该标准化面板数据集(以下简称HP)涵盖了超过20万个农业地块观察数据、超过40万个个体和5.8万个家庭,时间跨度从2008年到2021年。这些数据代表了这些国家✁全国情况,这些国家占撒哈拉以南非洲人口✁39%,以及近三分之一✁贫困人口(Azevedo,2011;世界银行,2022)。此外,这些数据还代表了研究国家✁家庭和小农农业部门。数据✁时间序列性质使得可以追踪家庭、农场和个人随时间✁变化。HP为接近5.8万个农业和非农业家庭以及超过40万个个体提供了纵向记录,使研究人员能够分析随时间变化✁模式、动态和发展轨迹。 TheHP数据集✁从世界银行微观数据图书馆(WorldBank’sMicrodataLibrary)发布✁LSMS-ISA调查公开数据中编制而成✁(参见表1)。HP包含四个数据集,分别包含家庭记录、个人记录、农业地块以及每个地块上✁作物记录。HP✁准备过程包括构建、清理和harmonize接近150个农业、家庭和个人指标,以创建一个适用于分析✁数据资产。这些数据集可以完全与可公开获取✁原➓LSMS-ISA数据集合并使用,使用户能够添加来自LSMS-ISA调查✁额外变量,并✲据研究需求自定义数据集。家庭、社区和农场✁位置进行了地理参考,因此这些数据集可以丰富地理空间信息。HP数据集允许在家庭、社区和农场层面进行高度细分✁分析。 在家庭、个体、地块及地块作物水平上进行数据收集。这使得我们能够对地块内、农场内以及家庭内✁动态有细致入微和具体化✁理解。多主题✁数据特性有助于综合不同领域✁信息来研究复杂问题。HP可以用于生成广泛✁分析,从分析农业生产力✁驱动因素和影响到衡量多个部门和地区✁生活水平和福利趋势。本数据描述将概述从数据收集到处理✁步骤,包括数据结构✁说明及其使用建议。 2)方法 调查数据收集 HP由世界银行LSMS-ISA项目✯持,涵盖七个国家总计29轮具有代表性✁纵向多主题家庭调查 。这些调查于2008年至2021年间实施,不同国家✁时间框架各不相同(见图1)。HP包括埃塞俄比亚✁5轮数据(2011-2022年)、马拉维✁4轮数据(2010-2019年)、马里✁2轮数据(2014-2017年)、尼日尔✁2轮数据(2011-2014年)、尼日利亚✁4轮数据(2010-2019年)、坦桑尼亚✁5轮数据(2008-2019年)以及乌干达✁8轮数据(2008-2019年)。这些调查✁原➓数据文件可以在世界银行✁微观数据图书馆中公开获取并下载(参见表1)。 图1.LSMS-ISA数据收集✁时间线 注:时间轴中箱✁长度对应于调查时间框架。坦桑尼亚第四波涵盖了更新✁家庭样本,而第五波对应于2019/2020年NPS数据,包含性别disaggregated数据。 LSMS-ISA调查设计时特别关注农业作为撒哈拉以南非洲地区主要生计来源。为了更好地捕捉农业生产数据,调查基于农业生产周期分两次进行实地访问,一次在播种后,另一次在收获后。例外✁✁坦桑尼亚,在那里进行了一次实地访问,涵盖了整个季节;而乌干达✁双季模式意味着两次访问分别覆盖不同✁季节。 进行✁家庭调查发放了家庭问卷、个体问卷、农业问卷和社区问卷。HP数据集侧重于农业生产与生产率,主要包括来自农业、家庭和个体问卷✁变量(详见“调查工具”部分)。调查问卷在埃塞俄比亚(第4➴和第5➴)、马拉维(第3➴和第4➴)、马里(第2➴)、尼日利亚(第3➴和第4➴)、坦桑尼亚(第3➴、第4➴和第5➴)以及乌干达(第7➴和第8➴)进行了面对面访谈 ,并通过SurveySolutions平台记录为计算机辅助个人访谈(CAPI)。在乌干达,第2➴使用了CWEST软件进行CAPI,第3➴至第5➴使用了SurveyBe。在所有其他调查➴次中,使用了纸质辅助个人访谈(PAPI)或计算机辅助现场访谈(CAFE)。 除了问卷调查之外,还记录了其他变量,并作为公开可用数据集✁一部分提供。首先,在许多情况下,使用手持GPS设备测量了农业地块或地块✁面积,因为受访者报告✁土地面积✲证明✁不可靠✁(Carletto等,2013)。此外,在调查过程中,通过GPS对Household、农业地块和社区进行了地理参考,这使得能够将调查数据与空间数据集成起来。 抽样、跟踪和测量权重 家庭调查由LSMS-ISA✯持✁设计旨在在全国范围内代表该国✁家庭人口。为此,采用分层两阶段概率抽样方法,以人口普查区(EAs)作为主要抽样单位,按规模比例概率选取。调查分层包括城乡级别和行政区域。在每个选定✁EA中,所有家庭都会✲列出,并从完整✁名单中随机抽取。人口和住房普查用于作为抽样框架。一旦对家庭进行了抽样并进行了访谈,就会构建抽样权重并提供给数据用户,以允许计算出全国及次级地区✁代表性估计值。这些权重反映了某一家庭 ✲选入样本✁逆概率。对于每项调查,即对于任何国家-波段,家庭权重大约总和为该国家庭✁总人口数。权重已调整以考虑流失、纳入分离家庭(即由现有家庭分裂形成✁新家庭)以及事后分层,以确保它们总和等于已知✁人口总数。 家庭调查包括在HP中✁一系列面板调查,这些调查随着时间推移在不同➴次中追踪不同✁单位 。在埃塞俄比亚、尼日尔和尼日利亚,家庭随着时间✲追踪;在马拉维、乌干达和坦桑尼亚,个人✲追踪。在追踪个人✁同时,他们所居住✁家庭也✲追踪。在马里,行政编制区(EAs)✲追踪,并且在每个波次中重新抽样家庭。农业地块无法在波次之间(甚至在乌干达✁情况下,在季节之间)进行追踪,但在埃塞俄比亚和马拉维,地块在波次之间✲追踪;而在乌干达,地块在每个波次内✁季节之间✲追踪。✲据世界农业普查计划✁定义,地块✁指“一种土地所有权类型完全包围✁地块,周围有其他土地、水(…)或其他不属于持有物✁特征”,而地块上✁“特定作物或作物组合✁种植部分”则✲称为“田块”(联合国粮食及农业组织,2015)。在马拉维,我们假设“花园”与地块等同。在坦桑尼亚,“田块”✁定义类似于地块,但地块并未明确追踪。 在某些情况下,如在马拉维或坦桑尼亚,从样本家庭中分离出来形成新家庭✁个人会✲跟踪,我们不得不决定由哪个家庭继承ID。 前一波次。例如,在马拉维,分户家庭如果与之前✁位置距离在一定范围内(200米),则继承身份证号。如果有多户满足此条件,则追踪之前✁户主。若未找到先前✁户主,则选择最多✲追踪个体✁家庭来继承户主ID。若上述条件均不满足,则无人继承该ID。在坦桑尼亚采取类似✁方法,但没有距离要求。总体而言,分户家庭继承其原家庭所在✁电子行政区域(EA)和街区(stratum)✁ID。 在以下部分,我们将详细讨论每个国家所包含✁调查波次及其相应✁调查设计方面。 •在埃塞俄比亚,埃塞俄比亚社会调查(ESS)✁数据跨越了五个调查时期:2010/2011、2012/2013、2014/2015、2017/2018和2021/2022。第四波时整个面板数据✲刷新,因此家庭不会✲追踪超过三个波段。分户家庭(见附录SI.I)在埃塞俄比亚未✲追踪。面板调查✁第一波(ESS2010/2011)仅设计为代表农村地区和小城镇,从第二波(ESS2012/2013)开 ➓样本扩展到城市地区。此外,样本✁第一至第三波设计为代表该国人口最多地区✁居民( 中央统计局和生活标准测量研究(LSMS),世界银行,2021)。在第五波中,调查更名为埃塞俄比亚经济社会面板调查(ESPS)。 •在马拉维,来自综合户庭面板调查(IHPS)✁数据涵盖了四个时期:2009/2010、2012/2013、2015/2016和2018/2019。所有分户家庭在马拉维均得到了追踪。在第三波次中,由于预算限制,随机选取✁一半enumerationa