授权公开披露 授权公开披露 政策研究工作文件10917 统计匹配的收入和消费数据 罗马尼亚的能源和收入贫困评估 布列塔粗鲁的莫妮卡罗巴约-艾布里尔 贫困与公平全球实践2024年 9月 政策研究工作文件10917 Abstract 为了设计有效的政策工具以针对罗马尼亚的能源贫困人群,理解谁属于能源贫困群体至关重要。然而 ,这类分析受到当前数据环境的限制。虽然基于支出调查的数据估算货币化的能源贫困,传统的福利指标和对社会保护项目访问情况的详细信息构成了欧盟社会状况调查(EU-SILC)的一部分。两个调查样本不同;因此,无法将两者进行记录链接。本文提出了一种替代方案,即利用统计匹配技术结合两个调查的信息。 基于一组匹配变量,将HBS中的能源支出份额信息填补到EU-SILC中,比较这些模型的表现,并应用表现最佳的一个。基于由此产生的匹配数据集 ,结果显示几乎所有经济贫困者同时也是能源贫困者,但罗马尼亚的人口中还有一显著比例的额外人口处于能源贫困状态。能源贫困率在福利分布的较低端更高。这一结果具有重要的福利意义 。 这篇论文是由世界银行贫困与平等全球实践部门出品。它是世界银行为提供研究开放访问、并为全球发展政策讨论做出贡献而进行的一项更大努力的一部分。政策研究工作论文也在网上发布于http://www.worldbank.org/prwp。作者可以联系mrobayo@worldbank.org和brude@worldbank.org。 该政策研究工作论文系列旨在发布正在进展中的研究成果,以促进关于发展问题的交流与讨论。该系列的一个目标是迅速传播这些发现,即使展示尚未完全完善。这些论文标注有作者姓名,并应据此引用。本报告中的观点、解释和结论完全是作者的意见。它们不一定代表国际复兴开发银行/世界银行及其附属组织的观点,也不代表世界银行执行董事会成员或他们所代表的政府的观点。 由研究支持团队制作 统计匹配的收入和消费数据:一个 罗马尼亚的能源和收入贫困评估1 Britta粗鲁MonicaRobayo-Abril JEL分类:O13,P28,Q42,D12,C15,C52 关键词:能源贫困,统计匹配,贫困,数据融合,归因,EU-SILC,罗马尼亚 1这篇论文是世界银行全球贫困与平等实践部门的罗姆尼地区贫困与平等计划的一部分。该研究由世界银行的MónicaRobayo-Abril( 经济学家)和BrittaRude(青年专业人员)组成的团队完成。我们感谢世界银行的SergioOliveira(高级经济学家、统计学家)提供的宝贵意见和修改建议。 I.Introduction 在欧盟内部,制定基于证据的政策以应对能源贫困(例如,由于俄罗斯联邦入侵乌克兰引发的能源危机而加剧的能源贫困)受到当前数据环境的制约。有效的政策决策需基于证据,这要求有强大的数据基础设施和坚实的统计能力。不幸的是,由于数据可用性的限制,明智的政策制定常常受到限制。这一限制在欧盟当前的能源危机以及更广泛的解决能源贫困努力中表现得尤为明显。俄罗斯入侵乌克兰导致能源价格急剧上涨,给家庭带来了巨大压力。要了解哪些家庭受影响最严重,并识别处于货币贫困和能源贫困重叠状态的家庭,需要能够衡量每个家庭这两方面情况的数据集。遗憾的是,在大多数欧盟国家,此类全面的数据极为稀缺。福利聚合通常通过欧盟SILC(统计局收入和生活状况调查)进行测量,而包含能源支出在内的详细支出数据则通过家庭预算调查收集。因此,同时观察到户层面的能源贫困和货币贫困状况仍然颇具挑战性。 目前,没有像罗马尼亚那样的数据来源包含关于收入和支出的可靠联合信息欧洲联盟(包括罗马尼亚)当前的数据环境的特点是一项用于衡量家庭支出的住户预算调查和一项用于衡量货币贫困和收入的EU-SILC调查。虽然住户预算调查收集收入数据,但这些信息并未用于产生官方贫困衡量指标,后者基于EU-SILC中的可支配收入。因此,没有任何一项调查能够联合提供基于收入的福利措施和支出的信息。因此,在罗马尼亚通过收入分位数或贫困状态来衡量支出具有挑战性。 欧洲联盟统计局(Eurostat)和越来越多的相关文献探讨了数据融合方法或统计匹配方法,以应对联合收入和支出数据的缺乏问题(Lamarche等,2020)。传统上,数据集是基于记录链接进行合并的。这种方法依赖于一个共同的个体标识符,可用于在个体层面组合数据集。而在欧盟劳动力调查(EU-SILC)和住房基本情况调查(HBS)中没有共同的标识符,因此在进行合并时需要采用其他方法来处理受访的家庭。 EU-SILC可能不会与作为HBS一部分而被采访的人群相符。因此,必须依赖数据融合方法来结合两个数据集的信息。越来越多的学者研究了使用统计匹配方法将缺乏共同标识符的数据集合并起来,尤其是在欧盟内部。例如,Donatiello等人(2016b)将该方法应用于意大利的数据,而Serafino和Tolkin(2017)则将其用于六个欧洲国家的数据。Lamarche等人(2020 )考察了更广泛的欧洲背景,而Schaller(2021)则专注于德国、法国和荷兰。此外,Emmenegger等人(2022)也在德国应用了统计匹配方法。 在本文中,我们应用统计匹配技术生成了罗马尼亚独特的支出和收入数据集。我们的目标是生成一个包含支出信息的数据集,具体来说是家庭的能源支出占比,并提供可靠的家庭收入信息以及个人获得社会保护情况的信息。由此生成的数据集使我们能够界定能源贫困群体,分析能源价格上升对福利的影响,并提出针对能源贫困的有效政策措施。为此,我们运用统计匹配技术将欧盟统计局家庭住户调查(EU-SILC2020,以2019年为收入参考年)与住户预算调查(HBS2019)进行匹配。2我们的最终目标是使用由此产生的数据集覆盖货币贫困与能源贫困。 我们按照Ruben(1986)开发的方法估计多个插补模型,该方法连接数据集。你:统计匹配方法借鉴了插补的概念,该概念常用于处理缺失观测值(Bacher和Prander,2018)。这些方法包括参数法、非参数法和混合方法等多种类型,如Lewaa等人(2021)所述。我们采用Ruben(1986)提出的方法,并选择匹配变量来合并两个数据集。我们识别出两个调查中都存在的潜在匹配变量,以帮助识别相似的家庭。然而,并不是所有重叠的变量都应该作为匹配变量;只有那些与目标变量相关且在调查中表现出类似分布的变量才应被视为匹配变量(Serafino和Tonkin,2017)。在第一步中,我们对两个数据集进行标准化处理,以确保它们具有可比性。 2EU-SILC关于收入的问题是指上一年的12个月期间。 重叠变量。然后我们采用lasso回归来确定最能解释能源支出份额✁关键变量。随后,基于这些选定变量,我们将两个数据集进行合并,并运行多种不同✁插补模型:线性回归插补模型 、预测均值匹配(PMM)以及截断回归插补模型。 我们基于三个标准确定了性能最佳✁插补模型。首先,我们评估估算✁推断能源支出份额与观察到✁分布之间✁吻合程度,总体以及按子组进行分析。其次,我们分析均值估计和标准差在不同模拟中✁变化以评估结果✁一致性。我们在整体人口层面进行这种分析,并且还查看了一组随机匹配变量✁子组。再次,我们检查每种模型在重复家庭预算调查并假设在重复数据中能源支出份额缺失时✁表现。这些性能指标表明,预测均值匹配(PMM)插补技术✁效果最佳 。此外,预测均值匹配方法相较于其他方法具有多个优势,因为它易于使用且具有灵活性,并且在模型设定不准确✁情况下比其他插补方法更加稳健(VanBuuren,2012)。最后,我们比较了三种不同✁模型规格,并发现加权PMM略微优于非加权PMM。 我们利用匹配✁数据集展示了货币贫困与能源贫困之间✁强烈关联,揭示出大多数经历货币贫困✁个体同时也受到能源贫困✁影响。我们发现,在福利分布较低✁群体中,能源支出所占比例明显更高。通过将能源支出份额和货币能源贫困✁估计值与从EU-SILC获得✁货币贫困测量值叠加,我们观察到几乎整个处于贫困风险中✁人口也同时遭受着能源贫困。此外,大量罗马尼亚人口被认定为能源贫困,这表明传统✁福利指标可能未能注意到该国✁能源贫困问题。这突显了在罗马尼亚采取额外政策措施以解决能源贫困✁必要性。进一步✁分析还显示,福利状态较低✁家庭将更多收入用于能源支出。因此,这些家庭可能会因能源价格✁上涨而承受更大✁负担,从而加剧他们已有✁困境。 4 几个重要✁警告适用于我们✁分析。我们在两个数据集中发现显著✁匹配变量差异,这表明所抽样✁个体在特征方面可能存在潜在✁不一致性。此外,每项调查采用✁抽样方法也存在差异。而且,调查✁时间跨度也各不相同,这进一步增加了复杂性。这些系统性✁差异可能对插补模型在准确捕捉纳入欧盟生活状况调查(EU-SILC)✁家庭实际能源支出份额方面✁有效性产生重大影响。最重要✁是,如同以往✁研究一样,在本研究✁具体实证例子中我们无法检验条件独立假设✁有效性。在解释本文呈现✁结果时,应考虑到这些局限性。 我们✁研究补充了欧盟(EU)已开展✁关于统计匹配技术✁研究。在近年来,欧盟对统计匹配潜在应用✁兴趣逐渐增加。一些先前✁研究已经在这个领域进行了探索,例如Leulescu和Agafitei(2013)、Serafino和Tonkin(2017)以及Moretti和Shlomo(2022)✁工作。我们✁论文特别关注统计匹配技术在分析罗马尼亚✁能源支出份额和能源贫困方面✁应用。据我们所知,这是首次在该国探索数据融合方法✁研究。此外,据我们所知,本研究是首次尝试使用统计匹配技术来填补能源贫困指标和能源支出份额✁研究。以往✁研究主要集中在收入或教育相关✁指标上。 增强调查✁一致性并改善欧盟-SILCSubset内✁数据集成将有助于未来统计匹配工作✁开展。在本文讨论✁两份调查背景下,各种进入点可以促进统计匹配技术在罗马尼亚✁应用。首先,我们建议对不同家庭调查(特别是欧盟统计局✁EU-SILC和国家统计局✁HBS)进行更稳健✁标准化过程,以支持基于匹配变量✁数据融合方法。这一标准化努力将增强数据源✁一致性,并促进匹配技术✁应用。此外,跨国家统一HBS将简化将一个国家开发✁方法应用于其他欧盟成员国✁程序。最后,我们建议在EU-SILC中包含一部分家庭✁支出信息。 5 或者从汇总层面来看。这种包括方式将能够验证匹配技术✁效果,并提供评估结果准确性和可靠性✁手段。欧盟SILC中拥有支出信息将增强验证和细化匹配方法可行性和准确性✁可能性。 论文组织如下。第二部分描述了研究方法和数据。第三部分描述了罗马尼亚案例✁应用以及能源贫困与收入贫困✁重叠情况。第四部分总结全文。 二、方法和数据 两种总体方法主要用于数据融合:基于距离和基于模型。表1对这些方法进行了更详细✁描述。基于距离✁方法最小化R=(Y,Z)和D=(X,Z)之间✁距离函数。从概念上讲,这种方法根据重叠变量Z寻找相似✁观测值。示例包括带/不带重采样技术✁统计匹配、最近邻技术、热区技术或聚类分析。根据Z上✁相似性,使用捐赠数据中变量值X来填补受体数据中✁缺失观测值 。这种方法依赖于一些严格✁假设条件,例如Z没有测量误差以及适当✁距离度量(Bacher和Prander,2018)。基于模型✁方法首先在捐赠数据中估计X和Z之间✁函数形式,然后将其应用于受体数据。这些方法假设捐赠数据和受体数据中X=f(Z)✁函数形式相同。 表1:数据融合方法 基于距离✁方法 基于模型✁方法 进近 -基于重叠变量Z,搜索类似✁观察结果 -距离函数✁最小化 在R=(Y,Z)和D=(X,Z)之间 -通常,按社会划分-经济特征或地理 -功能形式✁估计 捐赠者数据中✁X和Z之间 6 Examples -有/无✁统计匹配重采样技术 -最近邻域技术 -热甲板技术 -聚类分析 -单一归因-多重归因 结果 供体值X✁变量值用于识别收件人中缺失✁观察data. 使用生成✁函数形式估计收件人中X✁