您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[世界银行]:收入和消费数据的统计匹配:罗马尼亚能源和收入贫困评估(英) - 发现报告
当前位置:首页/行业研究/报告详情/

收入和消费数据的统计匹配:罗马尼亚能源和收入贫困评估(英)

商贸零售2024-08-31世界银行葛***
AI智能总结
查看更多
收入和消费数据的统计匹配:罗马尼亚能源和收入贫困评估(英)

政策研究工作论文 统计数据匹配收入并且消费数据 罗马尼亚能源和收入贫困评估 BrittaRudeMonicaRobayoAbril 10917 公共公披共公露披共公授露披共权授露披权授 贫困与公平全球实践2024年9月 政策研究工作论文10917 摘要 为了设计针对罗马尼亚能源贫困人群的有效政策工具,了解谁是能源贫困人群至关重要。然而,这类分析受到当前数据环境的限制。虽然货币能源贫困估计依赖于支出调查数据,传统的福利指标和关于社会保护项目接入的详细信息构成了欧盟SILC的一部分。两种调查的样本不同;因此,两种调查的记录链接是不可能的。本文提出了一种替代方案,即结合两种调查的信息,即统计匹配技术。它应用了多种技术。 使用基于一组匹配变量的赋值模型从HBS中推断能源支出份额信息到EUSILC,比较这些模型的性能并应用表现最佳的一个。基于产生的匹配数据集,结果显示几乎所有货币贫困者也都是能源贫困者,但在罗马尼亚,能源贫困的人口比例显著增加。能源贫困率在福利分布的较低端更高。这一结果具有重要的福利影响。 这份论文是贫困与平等全球实践项目的研究成果。它是世界银行更大规模努力的一部分,旨在提供其研究的开放式访问,并为全球发展政策讨论做出贡献。政策 研究工作论文也发布在httpwwwworldbankorgprwp上。作者可通过以下方式联系:在mrobayoworldbankorg和brudeworldbankorg。 政策研究工作论文系列传播正在进行中的研究成果,以促进关于发展的思想交流。 问题。本系列的一个目标是将研究结果快速发布,即便这些展示并不完美。论文包含以下内容:作者姓名应相应引用。本文中表达的研究发现、解释和结论完全是作者自己的。 作者之一。他们的观点并不一定代表世界银行世界重建与发展银行的看法。其附属机构,或世界银行执行董事或他们所代表的政府机构。 由研究支持团队制作 统计匹配收入与消费数据:一种 罗马尼亚能源与收入贫困评估1 布里塔鲁德 莫妮卡罗巴约阿布里尔 JEL分类:O13P28Q42D12C15C52 关键词:能源贫困,统计匹配,贫困,数据融合,插补,EUSILC,罗马尼亚 1本文是作为世界银行全球贫困与平等实践中的罗马尼亚贫困与平等计划的一部分准备的。这项研究由一支由MnicaRobayoAbril( 银行高级经济学家)和BrittaRude(世界银行青年专业人员)组成的团队进行。我们感谢SergioOliviera(世界银行高级经济学家、统计学家)对评论和修订的有益意见。 I引言 在欧盟范围内,制定基于证据的政策以应对由俄罗斯联邦入侵乌克兰引发的能量危机所加剧的能量贫困当前的数据环境对此造成了阻碍。有效的政策决策需基于证据,这要求拥有坚实的数据基础设施和强大的统计能力。不幸的是,由于数据可用性的限制,明智的政策制定常常受到阻碍。这一局限在当前欧盟能源危机以及更广泛的解决能源贫困努力中尤为明显。俄罗斯入侵乌克兰导致的能源价格急剧上涨给家庭带来了巨大的压力。理解哪些家庭受影响最大以及识别处于货币贫困和能源贫困交叉中的家庭需要一个可以衡量每个家庭这两方面状况的数据集。遗憾的是,这种全面的数据在大多数欧盟国家都较为稀缺。福利汇总通常通过EUSILC进行测量,而包含能源支出的详细消费数据则是在家庭预算调查中收集到的。因此,在家庭层面同时观察能源贫困和货币贫困状态仍具有挑战性。 目前,没有任何数据来源包含关于收入和支出的可靠联合信息,正如罗马尼亚的情况一样。当前欧盟(包括罗马尼亚)的数据环境由两个调查构成,一个用于衡量家庭支出,即家庭预算 调查,另一个用于衡量货币贫困和收入,即欧盟社会收入状况调查(EUSILC)。虽然家庭预算调查收集收入数据,但所收集的信息并不用于产生官方贫困衡量指标,这些指标基于欧盟社会收入状况调查的可支配收入。因此,没有调查能够同时提供基于收入的福利措施和支出的信息。在罗马尼亚按收入十进制或贫困状况测量支出因此具有挑战性。 欧盟统计局(Eurostat)以及越来越多的文献探讨了数据融合方法,或称统计匹配,以解决联合收入和支出数据缺乏的问题(Lamarcheetal2020)。传统上,数据集是根据记录链接进行合并的。这种方法依赖于一个共同的个人标识符,该标识符可用于在个人层面合并数据集。在欧盟社会收入状况调查(EUSILC)和健康与生物统计调查(HBS)的情况下,没有共同的标识符,并且作为其中一部分被采访的家庭 欧盟家庭收入和消费调查(EUSILC)可能与哈佛商学院(HBS)调查的受访者不完全一致 。因此,必须依赖于数据融合方法来结合两个数据集的信息。越来越多的学者研究了使用统计匹配合并缺乏共享标识符的数据集,特别是在欧盟内部。例如,Donatiello等人(2016b)将这种方法应用于意大利的数据,而Serafino和Tolkin(2017)则使用六个欧洲国家的数据。Lamarche等人(2020)考察了更广泛的欧洲背景,而Schaller(2021)则聚焦于德国、法国和荷兰。此外,Emmenegger等人(2022)在德国也使用了统计匹配方法。 在本文中,我们应用统计匹配技术为罗马尼亚生成一个独特的支出和收入数据集。我们的目标是创建一个包含支出信息的数据集,特别是家庭的能源支出份额,以及关于家庭收入和个体获得社会保障的可靠信息。该数据集使我们能够描绘能源贫困人口的特征,分析能源价格上涨对福利的影响,并提出针对能源贫困的有效政策干预措施。为此,我们应用了统计匹配技术,将2019年收入参考年份的EUSILC2020与2019年HBS进行匹配。2我们的最终目标是利用由此产生的数据集来叠加货币贫困与能源贫困。 我们估计多重插补模型,采用Ruben(1986)开发的方法,该方法将数据集连接起来。统计匹配方法借鉴了插补的概念,该概念常用于缺失观测值(Bacher和Prander,2018)。它包括各种方法,可以被分类为参数方法、非参数方法或混合方法,正如Lewaa等人(2021)概述的。我们采用了Ruben(1986)介绍的方法,并选择匹配变量来合并两个数据集。我们识别出在两个调查中都存在的潜在匹配变量,这些变量有助于识别相似的住户。然而,并不是所有重叠变量都应被视为匹配变量;只有那些与目标变量相关且在调查中表现出类似分布的变量(Serafino和Tonkin,2017)才应考虑。在第一步,我们对 2欧盟社会一体化问题(EUSILC)中的收入问题涉及前一年的12个月时间段。 重叠变量。随后,我们采用lasso回归来确定解释能源支出份额最显著变量。随后,我们根据这些选定变量将两个数据集合并,并运行各种不同插补模型:线性回归插补模型、预测均值匹配(PMM)和截断回归插补模型。 我们根据三个标准识别出最佳性能插补模型。首先,我们评估了推算出能源支出份额估计值与观察到分布,以及按子群体分布吻合程度。其次,我们分析了模拟中均值估计值和标准差变异,以评估结果稳定性。我们对总体人口进行了评估,并从一组随机匹配变量中考察了子群体。第三,我们检验了每个模型在复制家庭预算调查并假设复制数据中能源支出份额缺失时表现。这些性能指标表明,预测均值匹配(PMM)插补技术能够产生最佳结果。此外,预测均值匹配相较于其他方法具有多个优势,因为它是一种易于使用且多功能方法,并且比插补方法(VanBuuren,2012)对模型设定误差更不敏感。此外,我们还比较了三种不同模型设定,并发现加权PMM略优于未加权PMM。 我们利用匹配数据集来展示货币贫困与能源贫困之间强烈关联,揭示大多数经历货币贫困 个人也受到能源贫困影响。我们发现,在较低福利分布部分个人中,能源支出占比显著更高。通过将能源支出占比和货币能源贫困估计与从欧盟SILC获得货币贫困测量相结合,我们观察到几乎整个面临贫困风险群体也在经历能源贫困。此外,相当比例罗马尼亚人口被认定为能源贫困,这表明传统福利指标可能忽视了该国能源贫困问题。这突出了在罗马尼亚采取额外政策措施解决能源贫困必要性。此外,我们分析表明,福利状况较低户主将更多收入用于能源支出。因此,这些家庭可能面临因能源价格上涨而加剧更重负担,加剧他们现有困难。 4 我们分析适用几个重要注意事项。我们发现两个数据集在匹配变量上存在显著差异,这表明样本个体特征可能存在不同。此外,每个调查所采用抽样方法也存在差异。此外,调查时间范围也各不相同,这进一步增加了复杂性。这些系统性差异可能会显著影响插补模型在准确捕捉包括在EUSILC中家庭实际能源支出份额方面有效性。最重要是,与先前研究类似,我们无法在所研究具体实证例子中检验条件独立性假设有效性。在解释本文呈现结果时,应考虑到这些局限性。 我们论文补充了在欧洲联盟(EU)所进行相关统计分析匹配技术现有研究。近年来,欧盟对探索统计匹配潜力兴趣日益增长。一些关于此主题研究已经完成,例如Leulescu和Agafitei(2013年)、Serafino和Tonkin(2017年)以及Moretti和Shlomo(2022年)作品。我们论文特别关注将统计匹配技术应用于分析罗马尼亚能源消费份额和能源贫困。据我们所知,这是第一个探索该国数据融合方法研究。此外,据我们所知,我们研究是第一个调查使用统计匹配技术来估算能源贫困指标和能源消费份额研究。先前研究主要关注与收入或教育相关指标。 提高欧盟家庭收入和劳动力调查(EUSILC)中部分调查协调一致性和数据整合,将有助于促进未来统计匹配工作开展。在本文所讨论两个调查背景下,多种切入点可以促进在罗马尼亚应用统计匹配技术。首先,我们建议在不同家庭调查(尤其是欧盟SILC和HBS)之间进行更为稳健协调过程,以便基于匹配变量数据融合方法。这一协调工作将增强数据源之间兼容性,并便于匹配技术应用。此外,协调各国HBS将简化将一国开发methodology应用于其他欧洲联盟(EU)成员国。最后,我们建议将支出信息纳入欧盟SILC部分家庭样本。 5 或者在汇总层面上。这一包含将使验证匹配技术性能成为可能,并为评估结果准确性和可靠性提供一种手段。在EUSILC内部可获得支出信息将提高验证和细化匹配方法论可行性。 本文结构如下。第二部分描述了方法和数据。第三部分描述了针对罗马尼亚实证应用以及能源贫困和收入贫困如何重叠。第四部分得出结论。 II方法论和数据 两种总体方法主要被用于数据融合:基于距离和基于模型方法。表1更详细地描述了这些方法。基于距离方法最小化RYZ和DXZ之间距离函数。从概念上讲,这种方法基于重叠变量Z搜索相似观察值。例如,统计匹配(带不带重采样技术)、最近邻技术、热板技术或聚类分析。捐赠者值X变量值根据Z中相似性用于接收者数据中缺失观察值。这种方法依赖于几个强条件,如Z中没有测量误差和适当距离度量(Bacher和Prander,2018)。基于模型方法首先在捐赠者数据中估计X和Z之间函数形式,然后将该函数形式应用于接收者数据。这些方法假设捐赠者和接收者数据中XfZ具有相同函数形式。 表1:数据融合方法 距离基方法 基于模型方法 方法 基于重叠变量Z,寻找类似观察结果 距离函数最小化 在RYZ和DXZ之间 经常,通过社会经济特征或地理 功能形式估计 在捐赠者数据中介于X和Z之间 6 示例 统计匹配与无重采样技术 最近邻技术 热decks技术 聚类分析 单次输入多重代入法 结果 捐赠者价值X变量值被用于识别收件人中缺失观测值数据。 使用所得函数形式来估计收件人X缺失值基于Z 条件 在Z中无测量误差所选择距离度量是 适当 XfZ相同功能形式在供体和受体数据 来源:根据Bacher和Prander(2018)作者自述阐释。 数位研究人员曾尝试比较这些方法,但缺乏全面评估。 施勒尔(2021年)为例,比较了热座安排方法与预测均值匹配,并得出预测均值匹配可能优于热座安排方法,而热座安排方法是欧洲统计局传统上推荐方法。几位研究者表明,多重插补技术非常适