您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[世界银行]:Yielding Insights - 发现报告

Yielding Insights

AI智能总结
查看更多
Yielding Insights

10964 Yielding Insights 机器学习驱动的填充农业数据差距 马尔科 · 蒂贝蒂 ·塔利普 · 基利奇 政策研究工作文件 10964 Abstract 本文探讨了在大规模农业调查中作物产量数据缺失的挑战,由于成本限制,作物收割法(最准确的产量测量方法)往往受到限制。文中采用了基于机器学习模型的多重插补技术来预测缺失的产量数据。该方法通过使用来自马里的调查数据进行了验证,这些数据包括作物收割和自我报告的产量信息。分析涵盖了多种作物,提供了不同预测因子的重要性见解,包括农民报告的产量和地理空间数据。 变量及其适用条件,以及研究结果表明基于机器学习的插补可以提供准确的产量估计,尤其是在低间作率和高商品化程度的作物方面。然而,跨调查的插补准确性低于同一调查内的插补,这表明在不同调查轮次之间外推数据存在局限性。该研究为提高农业调查的成本效率以及插补方法的潜在价值提供了宝贵的见解。 屈服见解 : 机器学习驱动的填充农业数据差距 †††Isma ® elYacoubou DjimaMarco TibertiTalip Kilic 1 Introduction 农业调查中的微观数据是分析小规模农户经济生活不可或缺的要素。特别是在非洲地区,农场调查仍然是农业统计的核心(Carletto等,2015)。然而,在低收入国家通过农业调查收集准确的数据具有挑战性,原因包括农业活动的复杂性和季节性、受访者中的文盲问题以及对标准单位测量的不熟悉。克服这些挑战需要实施复杂的且成本较高的调查操作。因此,农场调查的成本效益和设计效率,以及使用统计方法来克服其数据的分析挑战,仍然是方法学研究的活跃领域,而本文旨在为此做出贡献。 该分析集中在地块级别的作物产量。通常,农业调查中获得的地块级作物产量统计数据是通过农民报告的收获重量或调查员测量的作物切割收获重量计算得出的。研究表明,自我报告的作物产量容易出现非经典测量误差,并且往往高于通过作物切割获得的对象测量产量(Abay等,2019;Desiere和Joliffe,2018;Gourlay等,2019;Yacoubou Djima和Kilic,2024)。尽管调查员测量的作物切割被认为是量化农业生产最精确的方法之一(Fermont和Benson,2011),但其实施成本更高且耗时更长。因此,这种信息通常仅对调查的一部分可用,导致分析师依赖统计方法和插补技术来填补这些数据缺口。 近年来,随着机器学习(ML)算法的进步及其即用型可用性,这些工具已成为分析师进行预测分析的首选方法。因此,在补全过程中采用这些算法是一个自然而然的下一步。经济学研究中,机器学习技术的应用在过去几年中日益增多,并且效果显著。根据Athey(2018)对机器学习早期贡献的评估,当应用于基于预测的问题时,如我们研究中所解决的问题,机器学习技术特别成功。此外,在农业经济学研究中利用机器学习是一种合理的做法,以建模诸如作物产量等关键变量,这些变量涉及土壤质量、天气、投入时间以及管理选择等多种因素,这些因素之间存在非线性和交互作用(Storm等人,2019)。此前的研究试图使用机器学习技术估算小农背景下的作物产量,通常结合手动标注的光学图像和实地数据采集,包括作为家庭和农场调查的一部分。Azzari等人(2021)提供了这些研究的例子,并建议了大规模家庭调查应该如何开展以生成训练卫星作物类型地图所需的数据。我们的研究主要依赖于将调查数据与地理空间变量整合起来,以在微观层面预测作物产量。Yacoubou Djima和Kilic(2024)尝试运用机器学习技术预测产量,利用来自马里的调查数据验证一种估计作物产量与投入之间关系的替代方法。作者进行了一项调查内部的填补练习,从随机子样本地块中推导出预测的、未观察到的目标作物产量,该模型是通过机器学习估计得出的。 作物收割产量和自我报告的产量都可用。这种方法使作者能够使用预测产量来重现产量与投入之间的关系,类似于使用作物收割产量获得的关系,从而展示了这种插补框架的有效性。然而,他们的研究仅限于一种作物(高粱)且只考虑一个农业季节,这限制了他们所开发框架的外部有效性。 在这一背景下,我们的分析试图克服这些局限性。我们利用了马里全国代表性农业调查数据的可用性,该数据是在生活标准测量研究—整合农业调查(LSMS-ISA)项目中收集的连续两轮数据。1项目旨在验证该方法在调查到调查插补框架中使用时的有效性。此外,我们将插补范围扩展到更多的作物:除了高粱,我们还研究了小米、玉米、水稻、花生和黑豆,从而使该方法的应用条件更加通用。为了便于计算和处理,我们专注于估计产量的均值。我们不仅限于在单个调查内的插补,还探讨了从一个调查到另一个调查的插补。同时,我们探索了哪些协变量对插补更为有效。最后,我们还研究了训练样本大小和策略的影响。通过改变训练样本的大小,我们考察了减少样本大小是否仍能获得可靠的插补结果,以平衡成本效率和插补方法的准确性。 我们的主要发现有三个方面:(i)农民报告的产量是作物收获量的良好预测指标,但结果表明综合地理空间变量具有更大的预测能力;(ii)平均而言,插补练习在低间作率和更商业化作物上表现更好,这可能与农民报告产量的标准单位准确性有关;(iii)在大多数情况下,插补方法在调查内部插补框架中提供了准确的结果,而在部分地块收集作物收获测量值可以提供一种成本效益较高的方法,但仍能实现可靠的机器学习预测,尤其是在统计计算在细分级别进行时,这种效果在调查到调查框架中尤为不明显。这些结果指出了在调查操作中重要的成本节约,但也突显了在质量方面对调查数据的严格要求。 本文结构如下。第2节描述了作物产量缺失的数据情况,以及我们可用数据如何允许我们调查适用于处理这些情况的插补框架。第3节描述了调查数据。第4节呈现了实证方法。第5节讨论了结果,第6节进行了总结。 2 数据情况 在这种基于作物收获数据的背景下,大规模获取作物减产数据的情况非常常见,这促使研究人员开发统计方法以克服这种稀缺性。表1提供了关于作物减产产量数据情况及其潜在影响的概述。 1Living Standards Measurement Study - Integrated Surveys on Agriculture(LSMS-ISA)是一种独特的纵向调查系统,旨在提高对非洲家庭和个人福利、生计和小农农业的理解。合作伙伴国家包括:布基纳法索、埃塞俄比亚、马拉维、马里、尼日尔、尼日利亚、坦桑尼亚和乌干达。更多信息请参见:https://www.worldbank.org/en/programs/lsms/initiatives/lsms-isa。 插补解决方案以填补该指标的空白。我们将这些情况分为两大类。在第一类中,当数据“部分缺失”时,家庭调查收集地块级别的信息、农业实践以及随机选取样本的作物收割数据。在这种情况下,应用一种内部调查插补框架。在第二类中,家庭调查拥有地块级别的农业实践信息和自我报告的作物生产数据,但没有基于作物收割的数据。在这种情况下,应用一种跨调查插补框架。我们在本节剩余部分提供了每种情况的更多细节。 2.1 部分缺失 : 调查内填补 在大多数农场调查中 , 部分缺少作物减产数据的情况是常见的情况。2在这种情况下,作物产量的测量通过两种方式获得:一种是通过相对便宜但不够准确的自我报告收获数据,另一种是通过更为劳动密集且昂贵但更客观的田间作业,即通过对样本作物进行收割获取数据。这种调查设计是为了降低成本,并且能够为单次调查中的部分地块提供多种作物产量衡量指标。 在 LSMS - ISA 调查的情况下 , 几个国家计划3已将作物收割整合到其调查操作中。样本中进行作物收割(CC)的比例因项目而异。通常,在计数区(EA)层面会列出地块-作物组合。如果这些组合的数量超过最低阈值,则从中随机选择部分地块进行作物收割实施。4 这种调查设计有助于进行调查内的(同一农业季节内)插补。主要原因在于,调查中所有地块的信息和农业实践都被收集,为统计模型中的协变量提供了共同的基础。在此背景下,一个重要的问题出现了:需要多少作物产量样本才能获得有效的作物产量统计数据?本文通过改变用于训练模型的样本比例来回答这个问题。 2.2 完全缺失 : 跨调查归因 总体而言,我们考虑的完全缺失作物产量数据的场景包括生活标准调查中的集成农业模块,在这些模块中并未收集作物产量数据,但统计系统中存在一份农场调查能够收集到地块级别的农业生产实践数据。以马里或埃塞俄比亚为例,这两个国家每年都会进行年度作物收割调查。人们可能会质疑是否可以减少作物收割的频率——例如每隔一年或每三年进行一次,并依赖数据插补来填补数据缺口并降低成本。这种方法对于这些国家尤为重要。 他们在冲突地区的近期经历表明,推断技术在脆弱和受冲突影响的地区可能具有巨大的价值,为规避大规模作物收割调查面临的挑战和实际困难提供了途径。这些技术提供了一种更高效且成本效益更高的方法来估算作物产量,能够实现及时可靠的数据分析。此外,它们可以解决由冲突或政治不稳定导致的数据收集中断问题。通过填补缺失值,我们可以保持数据系列的连续性,从而获得更完整和一致的数据集进行分析。这对于在直接数据收集困难的情况下评估农业趋势和评估干预措施至关重要。 另一个作物产量抽样推断的实际应用体现在西非货币联盟(WAEMU)协调调查计划中。在此计划中,西非各国统计局在进行平行农场调查的同时收集地块级农业信息,并在当前年或前一年进行作物收割操作。跨抽样推断模型可以有效填补这些作物收割数据的空白。 在本研究中,我们专注于评估插补方法的有效性,通过使用2017年作物收获样本作为训练样本,来预测(并回溯预测)2018年(2017年)数据集中平均作物收获量。 3 Data 我们获得了马里两个全国代表性农村地区的两项调查数据,这些调查分别在两个连续的农业campaign中进行。Enquête Agricole de Conjoncture Intégrée aux Conditions de Vie des Ménages 2017(EACI-2017)调查于2017-2018季节实施,覆盖了8,398户家庭;而Enquête Agricole de Conjoncture 2018(EAC-2018)调查于2018/2019季节实施,涉及8,225户家庭。这些数据集由农业部统计单位与世界银行LSMS-ISA团队合作收集。这种合作导致了对相同普查区域(或EA)内的家庭进行了重复横截面调查,这些调查收集了关于家庭特征和生活条件的全面数据。这些调查主要关注农业,提供了详细且精确的地块级信息。对于每一轮调查,每个家庭都会被访问两次:第一次访问后,相同的家庭会在第二次访问时再次接受访问,而且访问计划安排在2017/18和2018/19年农业雨季的播种后(8月至10月)和收获后(11月至2月)时期。半居民调查员进行了这些访问,在两次访问之间还额外进行了一次作物收割。在两轮调查中,所有主要农作物种植期间种植的所有作物都进行了作物收割。从所有地块列表中,按比例随机选择了每种作物三分之一的地块进行作物收割,该列表根据采样家庭在同一普查区域种植的作物进行了分层。 3.1 汇总统计和样本计数 在本分析中,我们集中研究了六种作物,这些作物在所有观察数据中占80%,并且使用了非标准单位转换因子:小米、高粱、稻米、玉米、黑豆和花生。表2列出了这些作物在每次调查波次中的样本详情。 总的来说 , 我们有大约 31, 032 个观测值 : 2017 年浪潮的 21, 657 个 , 2018 年浪潮的 9, 375 个。5对于每一种作物,我们大约有三分之一的观察数据包含了作物收割和自我报告的产量信息。这与调查中的作物收割协议一致,该协议规定在每个计数区(EA)中,随机选取三分之一的作物地块进行作物收割。为了提供更为全面的视角,附录中包括了详细表格,列出了按作物、种植方式(单一作物或间作)以及是否进行了作物收割