授权授公权授开公权授披开公权露披开公露披 政策研究工作文件 YieldingInsights 机器学习驱动的填充 农业数据差距 马尔科·蒂贝蒂·塔利普·基利奇 发展经济学发展数据集团2024年11月 10964 政策研究工作文件10964 Abstract 本文探讨了在大规模农业调查中作物产量数据缺失的挑战,由于成本限制,作物收割法(最准确的产量测量方法)往往受到限制。文中采用了基于机器学习模型的多重插补技术来预测缺失的产量数据。该方法通过使用来自马里的调查数据进行了验证,这些数据包括作物收割和自我报告的产量信息。分析涵盖了多种作物,提供了不同预测因子的重要性见解,包括农民报告的产量和地理空间数据。 变量及其适用条件,以及研究结果表明基于机器学习的插补可以提供准确的产量估计,尤其是在低间作率和高商品化程度的作物方面。然而,跨调查的插补准确性低于同一调查内的插补,这表明在不同调查轮次之间外推数据存在局限性。该研究为提高农业调查的成本效率以及插补方法的潜在价值提供了宝贵的见解。 这篇论文是由发展数据组(DevelopmentDataGroup)和经济发展部门(DevelopmentEconomics)共同完成的。它是世界银行为了提供研究成果的开放访问并为全球发展政策讨论做出贡献而进行的一项更大努力的一部分。政策研究工作论文也在网上发布,网址为http://www.worldbank.org/prwp。作者可以联系iyacouboudjima@worldbank.org;mtiberti@orldbank.org;和tkilic@worldbank.org。 政策研究工作论文系列发布研究成果以促进关于发展方面的思想交流。 问题。该系列的一个目标是尽快发布研究成果,即使展示内容尚未完全打磨。论文保留了原始状态。作者的名字,并且应当据此引用。本文中表达的发现、解释和结论完全属于作者本人。 由作者撰写。它们不一定代表国际复兴开发银行/世界银行的观点。其附属组织,或世界银行执行董事或他们所代表的政府的组织。 由研究支持团队制作 屈服见解:机器学习驱动的填充 农业数据差距∗ Isma®elYacoubouDjim† aMarcoTiberti† TalipKilic† JEL代码:C53;C55;C83;Q12. 关键词:小规模农户农业、农作物产量测量、机器学习、缺失数据、多重插补、户户调查 ∗作者感谢以下人士: (i)KseniaAbanokova和《第九届国际农业统计会议》(ICASIX)的所有参与者对本研究的评论; †生活标准测量研究(LSMS),发展数据集团,世界银行。 1Introduction 农业调查中的微观数据是分析小规模农户经济生活不可或缺的要素。特别是在非洲地区,农场调查仍然是农业统计的核心(Carletto等,2015)。然而,在低收入国家通过农业调查收集准确的数据具有挑战性,原因包括农业活动的复杂性和季节性、受访者中的文盲问题以及对标准单位测量的不熟悉。克服这些挑战需要实施复杂的且成本较高的调查操作。因此,农场调查的成本效益和设计效率,以及使用统计方法来克服其数据的分析挑战,仍然是方法学研究的活跃领域,而本文旨在为此做出贡献。 该分析集中在地块级别的作物产量。通常,农业调查中获得的地块级作物产量统计数据是通过农民报告的收获重量或调查员测量的作物切割收获重量计算得出的。研究表明,自我报告的作物产量容易出现非经典测量误差,并且往往高于通过作物切割获得的对象测量产量(Abay等,2019;Desiere和Joliffe,2018;Gourlay等,2019;YacoubouDjima和Kilic,2024 )。尽管调查员测量的作物切割被认为是量化农业生产最精确的方法之一(Fermont和Benson,2011),但其实施成本更高且耗时更长。因此,这种信息通常仅对调查的一部分可用,导致分析师依赖统计方法和插补技术来填补这些数据缺口。 近年来,随着机器学习(ML)算法的进步及其即用型可用性,这些工具已成为分析师进行预测分析的首选方法。因此,在补全过程中采用这些算法是一个自然而然的下一步。经济学研究中,机器学习技术的应用在过去几年中日益增多,并且效果显著。根据Athey(2018)对机器学习早期贡献的评估,当应用于基于预测的问题时,如我们研究中所解决的问题,机器学习技术特别成功。此外,在农业经济学研究中利用机器学习是一种合理的做法,以建模诸如作物产量等关键变量,这些变量涉及土壤质量、天气、投入时间以及管理选择等多种因素 ,这些因素之间存在非线性和交互作用(Storm等人,2019)。此前的研究试图使用机器学习技术估算小农背景下的作物产量,通常结合手动标注的光学图像和实地数据采集,包括作为家庭和农场调查的一部分。Azzari等人(2021)提供了这些研究的例子,并建议了大规模家庭调查应该如何开展以生成训练卫星作物类型地图所需的数据。我们的研究主要依赖于将调查数据与地理空间变量整合起来,以在微观层面预测作物产量。YacoubouDjima和Kilic(2024)尝试运用机器学习技术预测产量,利用来自马里的调查数据验证一种估计作物产量与投入之间关系的替代方法。作者进行了一项调查内部的填补练习,从随机子样本地块中推导出预测的、未观察到的目标作物产量,该模型是通过机器学习估计得出的。 作物收割产量和自我报告的产量都可用。这种方法使作者能够使用预测产量来重现产量与投入之间的关系,类似于使用作物收割产量获得的关系,从而展示了这种插补框架的有效性。然而,他们的研究仅限于一种作物(高粱)且只考虑一个农业季节,这限制了他们所开发框架的外部有效性。 在这一背景下,我们的分析试图克服这些局限性。我们利用了马里全国代表性农业调查数据的可用性,该数据是在生活标准测量研究—整合农业调查(LSMS-ISA)项目中收集的连续两轮数据。1项目旨在验证该方法在调查到调查插补框架中使用时的有效性。此外,我们将插补范围扩展到更多的作物:除了高粱,我们还研究了小米、玉米、水稻、花生和黑豆,从而使该方法的应用条件更加通用。为了便于计算和处理,我们专注于估计产量的均值。我们不仅限于在单个调查内的插补,还探讨了从一个调查到另一个调查的插补。同时,我们探索了哪些协变量对插补更为有效。最后,我们还研究了训练样本大小和策略的影响。通过改变训练样本的大小,我们考察了减少样本大小是否仍能获得可靠的插补结果,以平衡成本效率和插补方法的准确性。 我们的主要发现有三个方面:(i)农民报告的产量是作物收获量的良好预测指标,但结果表明综合地理空间变量具有更大的预测能力;(ii)平均而言,插补练习在低间作率和更商业化作物上表现更好,这可能与农民报告产量的标准单位准确性有关;(iii)在大多数情况下,插补方法在调查内部插补框架中提供了准确的结果,而在部分地块收集作物收获测量值可以提供一种成本效益较高的方法,但仍能实现可靠的机器学习预测,尤其是在统计计算在细分级别进行时,这种效果在调查到调查框架中尤为不明显。这些结果指出了在调查操作中重要的成本节约,但也突显了在质量方面对调查数据的严格要求。 本文结构如下。第2节描述了作物产量缺失的数据情况,以及我们可用数据如何允许我们调查适用于处理这些情况的插补框架。第3节描述了调查数据。第4节呈现了实证方法。第5节讨论了结果,第6节进行了总结。 2数据情况 在这种基于作物收获数据的背景下,大规模获取作物减产数据的情况非常常见,这促使研究人员开发统计方法以克服这种稀缺性。表1提供了关于作物减产产量数据情况及其潜在影响的概述。 1LivingStandardsMeasurementStudy-IntegratedSurveysonAgriculture(LSMS-ISA)是一种独特的纵向调查系统,旨在提高对非洲家庭和个人福利、生计和小农农业的理解。合作伙伴国家包括:布基纳法索、埃塞俄比亚、马拉维、马里、尼日尔、尼日利亚、坦桑尼亚和乌干达。更多信息请参见:https://www.worldbank.org/en/programs/lsms/initiatives/lsms-isa。 插补解决方案以填补该指标的空白。我们将这些情况分为两大类。在第一类中,当数据“部分缺失”时,家庭调查收集地块级别的信息、农业实践以及随机选取样本的作物收割数据。在这种情况下,应用一种内部调查插补框架。在第二类中,家庭调查拥有地块级别的农业实践信息和自我报告的作物生产数据,但没有基于作物收割的数据。在这种情况下,应用一种跨调查插补框架。我们在本节剩余部分提供了每种情况的更多细节。 2.1部分缺失:调查内填补 在大多数农场调查中,部分缺少作物减产数据的情况是常见的情况。2在这种情况下,作物产量的测量通过两种方式获得:一种是通过相对便宜但不够准确的自我报告收获数据,另一种是通过更为劳动密集且昂贵但更客观的田间作业,即通过对样本作物进行收割获取数据 。这种调查设计是为了降低成本,并且能够为单次调查中的部分地块提供多种作物产量衡量指标。 在LSMS-ISA调查的情况下,几个国家计划3已将作物收割整合到其调查操作中。样本中进行作物收割(CC)的比例因项目而异。通常,在计数区(EA)层面会列出地块-作物组合。如果这些组合的数量超过最低阈值,则从中随机选择部分地块进行作物收割实施。4 这种调查设计有助于进行调查内的(同一农业季节内)插补。主要原因在于,调查中所有地块的信息和农业实践都被收集,为统计模型中的协变量提供了共同的基础。在此背景下,一个重要的问题出现了:需要多少作物产量样本才能获得有效的作物产量统计数据?本文通过改变用于训练模型的样本比例来回答这个问题。 2.2完全缺失:跨调查归因 总体而言,我们考虑的完全缺失作物产量数据的场景包括生活标准调查中的集成农业模块,在这些模块中并未收集作物产量数据,但统计系统中存在一份农场调查能够收集到地块级别的农业生产实践数据。以马里或埃塞俄比亚为例,这两个国家每年都会进行年度作物收割调查。人们可能会质疑是否可以减少作物收割的频率——例如每隔一年或每三年进行一次,并依赖数据插补来填补数据缺口并降低成本。这种方法对于这些国家尤为重要。 2在西非开展年度农场调查的国家中,布基纳法索通过永久农业调查(EPA)对抽样的所有农户样本的所有地块进行作物收割调查。 3马里、埃塞俄比亚、乌干达和马拉维等国家的调查设计包括在子样本中收集作物切割数据。 4详细的土地样本采集协议可以在世界银行微观数据目录的调查文档手册中找到:https://microdata.worldbank.org/ 他们在冲突地区的近期经历表明,推断技术在脆弱和受冲突影响的地区可能具有巨大的价值 ,为规避大规模作物收割调查面临的挑战和实际困难提供了途径。这些技术提供了一种更高效且成本效益更高的方法来估算作物产量,能够实现及时可靠的数据分析。此外,它们可以解决由冲突或政治不稳定导致的数据收集中断问题。通过填补缺失值,我们可以保持数据系列的连续性,从而获得更完整和一致的数据集进行分析。这对于在直接数据收集困难的情况下评估农业趋势和评估干预措施至关重要。 另一个作物产量抽样推断的实际应用体现在西非货币联盟(WAEMU)协调调查计划中。在此计划中,西非各国统计局在进行平行农场调查的同时收集地块级农业信息,并在当前年或前一年进行作物收割操作。跨抽样推断模型可以有效填补这些作物收割数据的空白。 在本研究中,我们专注于评估插补方法的有效性,通过使用2017年作物收获样本作为训练样本,来预测(并回溯预测)2018年(2017年)数据集中平均作物收获量。 3Data 我们获得了马里两个全国代表性农村地区的两项调查数据,这些调查分别在两个连续的农业campaign中进行。EnquêteAgricoledeConjonctureIntégréeauxConditionsdeViedesMénages2017(EACI-