您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[世界银行]:巴布亚新几内亚高频价格调查的机器学习推断(英) - 发现报告
当前位置:首页/行业研究/报告详情/

巴布亚新几内亚高频价格调查的机器学习推断(英)

文化传媒2023-09-01世界银行肖***
巴布亚新几内亚高频价格调查的机器学习推断(英)

政策研究工作论文 10559 公开公披开公露披开公授露披开权授露披权授 机器学习高值补充 巴布亚新几内亚的频率价格调查 博彼得约翰内斯安德烈乌茨约翰帕佩 发展数据集团农业与食品全球实践与贫困与平等全球实践2023年9月 政策研究工作论文10559 摘要 跟踪快速发展的经济变化的能力在许多发展中国家的许多地区仍然有限。这使得优先考虑旨在支持易受伤害人群的政策复杂化。为了在数据稀缺的环境中获得对流动事件演变的洞察,本文探讨了近期机器学习进步在通过在持续调查中补充多个条目来产生近似实时连续数据的能力。本文试图追踪在巴布亚新几内亚当地市场层面上的新鲜农产品价格通胀 ,仅依靠不完整和间歇性的调查数据。由于月内价格波动性高,跨市场价格低,这种应用具有挑战性 。 相关性和弱价格趋势。建模方法使用链式方程同时产生多个价格报价的集合预测。论文在不同市场、食品和时间跨度下对预测策略进行了交叉验证。结果显示,当调查设计良好时,通过插补(imputations)可以达到与昂贵且在物流上往往不可行的直接测量相比具有吸引力的准确性。这些方法具有更广泛的应用性,可以有助于填补数据稀缺地区(如太平洋岛屿)的关键数据空白,尤其是在与专门设计的连续调查相结合的情况下。 本文是发展数据组、发展经济学、农业和食品全球实践;以及贫困与平等全球实践的产品。它是世界银行更大规模努力的一部分,旨在提供其研究的开放访问,并为全球的发展政策讨论做出贡献。政策研究工作论文也发布在httpwwwworldbankorgprwp上。作者可以通过bandreeworldbankorg和upapeworldbankorg联系。 《政策研究工作论文系列》发布正在进行中的研究成果,以促进关于发展的思想交流。 问题。本系列的一个目标是将研究结果迅速公之于众,即使报告的呈现不够完美。论文中包含以下内容:作者的名字应相应引用。本文中表达的研究发现、解释和结论完全是作者自己的。 作者的观点。这些观点不一定代表世界银行国际重建与发展银行的立场。其附属机构,或世界银行执行董事或他们代表政府的机构。 由研究支持团队制作 机器学习在巴布亚新几内亚高频价格调查中的数据补缺 通过 博皮埃特约翰内斯安德烈和乌兹约翰内斯帕佩 JELC01C14C25C53O10 关键词:通货膨胀,农业与粮食安全,粮食价格分析、经济冲击与脆弱性、宏观经济 监控。 鲍比埃特约翰内斯安德烈,世界银行,发展经济学,数据组,可通过bandreeatworldbankorg联系。乌特约翰帕佩,世界银行,减贫与全球实践,东亚与太平洋地区,以及哥廷根大学,可通过upapeatworldbankorg联系。本文中的发现、解释和结论完全是作者的意见。它们不一定代表世界银行及其附属机构,或者世界银行执行董事或他们所代表政府的观点。 1 2安德烈和帕佩2023年9月5日 I引言 世界各国统计机构越来越关注在官方统计数据生产中使用机器学习。特别是,缺失数据插补是潜在有希望的应用领域之一。联合国经济委员会委托,在选定的国家和国际统计机构进行的一项关于在官方统计数据中使用机器学习方法的研究调查显示,缺失数据插补在有望的领域排名中位居第二(Becketal)。2022实时经济数据的解释可能也是实现人道主义环境中可靠预测和风险监控的关键,在这些环境中,通常无法收集到原始数据(Andreeetal2020王等 ,20202022或在大型数据操作通常很少进行的发展环境中(Mahler等 ,)2021 传统上,调查被部署为独立的数据收集操作,旨在捕捉一个不断变化的统计数据快照,如贫困率、市场情绪或消费者价格指数。数十年来,发展此类一次性分析一直是经济学家的日常工作,也是政策制定者制定下一步行动的首选方法 。在处理缺失数据的问题时,传统上是从纠正在此分析环境中产生的偏差和不 确定性的角度出发。特别是,Rubin(1976赛蒙和鲁宾(1989鲁宾1996Little和Rubin2012vanBuuren2012关于多插补技术的应用已经为如何处理估计经济关系时可能存在的缺失数据提供了重要答案。然而,越来越多地,经济学家和政策制定者正寻求继续 深入洞察,如“nowcasting”和实时指标文献的激增所示(Khanetal)2022 文献中提出了许多有希望的应用,但现在预测综合变量的确特别困难,因为它涉及到以结构化的方式追踪多个贡献因素的变化。 例如,经济学家在研究通货膨胀时通常会追踪一个价格指数,该指数包含了重要商品组合的综合价格。对于整个商品组合收集的价格数据中的非响应,问题极其严重。通货膨胀的计算需要观察篮子中所有价格而没有任何偏见。因此,对于非响应价值的准确估计是必要的。基于此原因,传统的价格调查通常遵循一个故意的抽样和测量过程(Reinsdorf等人)。2009最大限度地减少测量误差、缺失的价格报价或源于测量地点或方法偏差的偏差,因为所有这些都是误差的来源(Baker,1996勒博和鲁德,2003格林利斯和麦克利兰德, 2010采用谨慎的方法使传统的价格数据收集方法稳健,但极度缺乏灵活性,并且通常不适用于近实时或高频情况下的通货膨胀跟踪,除了一些具有卓越统计能力的国家外。短时快速调查越来越多地被依靠以补充传统方式。 机器学习和高频调查在巴布亚新几内亚3 调查数据,例如通过利用高频电话访谈收集数据,以提供应对紧急情况的发展响应信息(Hoogeveen和Pape, 2019在实践中,快速调查系统几乎无法产生完整的数据,尤其是在经济动荡、 冲突或自然灾害等困难环境中部署时,这些情况下理解经济变量可能发生的剧烈变化尤为重要。大量创新旨在解决如何设计此类调查以确保足够的响应率,以及如何处理数据以产生正确估计的问题(PapeandWollburg)。 2019;纸,2021汉密斯等人,2021 为了克服高频调查的一些挑战,Andre(2021开发了一种用于实时填补进行中调查的方法。具体而言,该论文提出了一种基于多个机器学习模型的矩阵补全算法,该算法同时利用其他响应中包含的信息估计缺失的条目。当调查跟踪多个相关变量时,这种方法效果良好,并且特别适合用于填补价格指数,因为不同商品的价格通常相互关联。填补可以在仅能收集到不完整和间歇性数据的低频设置中应用。 本文旨在继续探讨机器学习技术在近实时补全持续调查并产生连续数据的能力 ,这些数据能够揭示在数据稀缺环境中的可能流动事件的演变。论文重点关注一个具有挑战性的即时预测目标。它试图利用从国际食物政策研究所(IFPRI)获得的月度调查数据,追踪巴布亚新几内亚(PNG)当地市场上新鲜农产品价格的通货膨胀情况。由于新鲜农产品价格在月内波动性高、由于整体市场整合不足导致市场间价格相关性低以及价格趋势弱,这一应用具有特别挑战性。该应用通过不同设计下(涉及市场数量、食品项目和时间段)的交叉验证来测试补全策略,并表明当调查设计良好时,补全可以达到与成本高昂且在物流上往往不可行的直接测量相比具有吸引力的准确性。地方化统计数据表明,为PNG在疫情爆发前后以及最近乌克兰冲突期间的食物价格通货膨胀动态提供了一个新的细粒度视角。 该应用基于Andre描述的原始算法构建。2021但是建议方法改进,以产生更快和更准确的结果,尤其是在数据可用性较低的环境中。缩短的计算时间使得该论文能够处理更多的食品项目。所得到的估计涵盖了2009年中至2022年7月期间8个市场的多达27种新鲜食品项目。这一数字高于Andre平均处理的7个项目和最多处理的16个项目。2021该论文还表明,估计方法可以应用于不同的价格调查,包括来自各国的调查。 系统。为了处理IFPRI数据中相对较大的时间间隔,本文纳入了汇率数据,表明这些方法还可以产生非官方平行市场汇率估计,允许实时货币化价格数据流。最后,本文表明,这些方法已成功应用于短期序列,为在高频设置中将这些方法与正在进行中的手机调查进行试点打开了大门。 PNG数据的适用性是有价值的,因为适用于高频价格跟踪的正式传统方法在太平洋岛区域由于多种原因尚未实施,包括低容量、地理环境挑战以及市场价格信息数字化的不完整。此外,使用传统方法收集的价格通常仅在数据已经过时后才发布。太平洋群岛通常对粮食产品(如谷物、肉类、乳制品和植物油)等食品产品依赖进口,这些产品在2008年上一次重大全球食品价格上涨期间均急剧上升(McGregor等人,)。2009然而,缺乏充足的价格监控能力,难以评估在各国全球范围内生活标准下降的情况下,该地区的发展环境如何发生变化(Egger等人,)。2021,高通货膨胀(Etang等人,2022世界银行, 2022,以及商品价格波动(世界银行集团,)2022本文得出结论,所探讨的方法可能具有更广泛的应用性,并有助于填补太平洋岛屿,特别是在与专门设计的连续调查相结合的情况下,的关键数据空白。论文的其余部分如下。第二章讨论了调查数据。 并且插补法。第三部分介绍了根据食品项目数量、市场和调查数据的时效性维度对不同配置的插补结果。第四部分总结了方法的可行性以及机器学习增强的高频调查在太平洋岛屿的潜在应用。 II方法 A高层次缺失值填补策略 表1展示了在收集用于跟踪通货膨胀的价格数据时遇到的一般缺失数据问题。特别是,该例子考虑在一个简单的三项组合中跟踪篮子价格,表明即使在有相当数量的价格数据的情况下,也可能无法在任何给定时刻观察到篮子价格的变动 。建议解决方案背后的总体思想是利用不同市场中同一物品或同一市场中其他物品的价格来填补价格缺口。使用标准插补工具完成缺失条目具有挑战性。 例如,将最后一个观测值向前推移表示为零变化,因此导致在旨在监控通货膨胀(价格变动)的应用中出现重大偏差,尤其是在高通胀环境下。这是一个问题,因为 表格1缺失数据问题的示例。 ABC 一1个b1 b2 无2效输入,无法进行翻译。 一3个无3效输入,无法进行翻译。一4个b4 b6无6效输入,无法进行翻译。 注:示例:缺失数据问题,三个假设向量AB并且C代表价格序列的元素一个b和无效输入,无法进行翻译。个体价格报价按时间周期索引t空白条目 ttt 表示缺失的观测值。挑战在于估计变化率P篮子价格向量 PABC涵盖所有t16元素b是一个需要被处理的异常价格示例。 4 移除并替换为估计值。 来源:例子出自Andre(2021 实时估算在经济指标在事件流动性大、及时官方数据不可用且无法信赖时,充当经济指标的代理。 一元时间序列或多元回归技术也被广泛应用于通过预测来解决数据缺失问题,但它们并不能有效地利用现有信息。例如,将一元方法应用于食品项目A不利用物品中可用的信息。B和C一个解释的回归模型。A基于()BC不可能,因为在示例表中即使有半数观测值可用,该三元组也没有完整的0个案例。Andre2021设计了一种适用于该环境的估计算法。在 在高级别上,该策略从这样一个观点开始,即用于插值的最重要的信息包含在观察到的价格比率中,并且应该被用来填补空白之处。具体来说,以表1为例,问题可以表述为: 1 caaabbcb c 在目标中,利用价格E对1中2的61信12息2估6算6LHS 可右被侧计(算R。HS此)信,息因通此过使P用链式方程建模(见vanBuuren和GroothuisOudshoorn(2011vanBuuren2012括号内内容:关于该概念深入分析和实施的详细讨论和实践。() 以下是对步骤的简化说明。算法的确切概述请见附录。 1首先,缺失的价格条目根据先前假设进行填补。这些先前假设可能基于专家意见,也可能是随机的(标准链式方程实现通常从使用观察值的随机抽取开始填补条目,例如参见vanBuuren和GroothuisOudshoorn的实施方法) 。2011或基于先前的建模(Andre2021结合空间和时间序列插值 技术,Andree(2022)使用一种模式匹配算法来填充空白 通过复制观察到的模式)。 2接着,对于列的回归模型A据估计,使用其他列作为预测指标