行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

统计匹配的收入和消费数据

商贸零售 2024-09-23 世界银行胡诗郁

罗马尼亚能源贫困与收入贫困统计匹配分析

引言

在欧盟内，为了应对由俄罗斯对乌克兰的入侵引发的能源危机而制定的证据基础政策受到了当前数据环境的限制。要做出有效的政策决策，需要强大的数据基础设施和统计能力。然而，由于数据获取有限，有效的政策制定常常受限。特别是在罗马尼亚，现有的数据环境使得联合观察家庭的能源贫困和收入贫困状态变得困难。目前，欧盟各国缺乏同时涵盖收入和支出的可靠数据。统计办公室Eurostat和相关文献探讨了数据融合方法（如统计匹配）来解决收入和支出数据不一致的问题（Lamarche et al., 2020）。传统上，数据集通过记录链接合并，但欧盟统计局（EU-SILC）和家庭预算调查（HBS）之间没有共同标识符，因此无法直接合并。

方法

本文采用统计匹配技术将欧盟统计局（EU-SILC）2020年收入参考年为2019年的数据与家庭预算调查（HBS）2019年数据相结合。我们首先标准化重叠变量，然后利用lasso回归确定最显著的解释变量。之后，我们基于这些选定变量连接两个数据集，并运行多种不同的插补模型，包括线性回归插补模型、预测均值匹配（PMM）和截断回归插补模型。我们依据三个标准评估最佳插补模型：一是估计的插补能源支出份额与观测分布的一致性；二是评估不同模拟中的平均估计值和标准差的一致性；三是检查每种模型在重复家庭预算调查时的表现，假设能源支出份额缺失。

结果

研究表明，几乎所有的货币贫困者也是能源贫困者，但罗马尼亚还有相当一部分人口处于能源贫困状态。能源贫困率在较低的福利分位数上更高。这一结果具有重要的福利影响。

主要发现

数据融合：通过统计匹配技术，将家庭预算调查和欧盟统计局的数据结合起来，生成包含家庭支出和收入信息的独特数据集。
能源贫困与收入贫困的关系：几乎所有货币贫困者也是能源贫困者，但仍有大量人口处于能源贫困状态。
能源贫困的影响：能源价格的急剧上涨对低收入家庭影响最大，能源贫困率在较低的福利分位数上更高。

结论

通过统计匹配技术，我们可以更好地理解罗马尼亚的能源贫困问题，并提出有针对性的政策干预措施，以减轻能源贫困带来的影响。

统计匹配的收入和消费数据罗马尼亚的能源和收入贫困评估布列塔粗鲁的莫妮卡罗巴约 - 艾布里尔政策研究工作文件 10917 Abstract 为了设计有效的政策工具以针对罗马尼亚的能源贫困人群，理解谁属于能源贫困群体至关重要。然而，这类分析受到当前数据环境的限制。虽然基于支出调查的数据估算货币化的能源贫困，传统的福利指标和对社会保护项目访问情况的详细信息构成了欧盟社会状况调查（EU-SILC）的一部分。两个调查样本不同；因此，无法将两者进行记录链接。本文提出了一种替代方案，即利用统计匹配技术结合两个调查的信息。基于一组匹配变量，将HBS中的能源支出份额信息填补到EU-SILC中，比较这些模型的表现，并应用表现最佳的一个。基于由此产生的匹配数据集，结果显示几乎所有经济贫困者同时也是能源贫困者，但罗马尼亚的人口中还有一显著比例的额外人口处于能源贫困状态。能源贫困率在福利分布的较低端更高。这一结果具有重要的福利意义。这篇论文是由世界银行贫困与平等全球实践部门出品。它是世界银行为提供研究开放访问、并为全球发展政策讨论做出贡献而进行的一项更大努力的一部分。政策研究工作论文也在网上发布于http://www.worldbank.org/prwp。作者可以联系mrobayo@worldbank.org和brude@worldbank.org。该政策研究工作论文系列旨在发布正在进展中的研究成果，以促进关于发展问题的交流与讨论。该系列的一个目标是迅速传播这些发现，即使展示尚未完全完善。这些论文标注有作者姓名，并应据此引用。本报告中的观点、解释和结论完全是作者的意见。它们不一定代表国际复兴开发银行/世界银行及其附属组织的观点，也不代表世界银行执行董事会成员或他们所代表的政府的观点。统计匹配的收入和消费数据：一个罗马尼亚的能源和收入贫困评估1 Britta 粗鲁 Monica Robayo - Abril JEL 分类: O13, P28, Q42, D12, C15, C52 I. Introduction 在欧盟内部，制定基于证据的政策以应对能源贫困（例如，由于俄罗斯联邦入侵乌克兰引发的能源危机而加剧的能源贫困）受到当前数据环境的制约。有效的政策决策需基于证据，这要求有强大的数据基础设施和坚实的统计能力。不幸的是，由于数据可用性的限制，明智的政策制定常常受到限制。这一限制在欧盟当前的能源危机以及更广泛的解决能源贫困努力中表现得尤为明显。俄罗斯入侵乌克兰导致能源价格急剧上涨，给家庭带来了巨大压力。要了解哪些家庭受影响最严重，并识别处于货币贫困和能源贫困重叠状态的家庭，需要能够衡量每个家庭这两方面情况的数据集。遗憾的是，在大多数欧盟国家，此类全面的数据极为稀缺。福利聚合通常通过欧盟 SILC（统计局收入和生活状况调查）进行测量，而包含能源支出在内的详细支出数据则通过家庭预算调查收集。因此，同时观察到户层面的能源贫困和货币贫困状况仍然颇具挑战性。目前，没有像罗马尼亚那样的数据来源包含关于收入和支出的可靠联合信息欧洲联盟（包括罗马尼亚）当前的数据环境的特点是一项用于衡量家庭支出的住户预算调查和一项用于衡量货币贫困和收入的EU-SILC调查。虽然住户预算调查收集收入数据，但这些信息并未用于产生官方贫困衡量指标，后者基于EU-SILC中的可支配收入。因此，没有任何一项调查能够联合提供基于收入的福利措施和支出的信息。因此，在罗马尼亚通过收入分位数或贫困状态来衡量支出具有挑战性。欧洲联盟统计局（Eurostat）和越来越多的相关文献探讨了数据融合方法或统计匹配方法，以应对联合收入和支出数据的缺乏问题（Lamarche等，2020）。传统上，数据集是基于记录链接进行合并的。这种方法依赖于一个共同的个体标识符，可用于在个体层面组合数据集。而在欧盟劳动力调查（EU-SILC）和住房基本情况调查（HBS）中没有共同的标识符，因此在进行合并时需要采用其他方法来处理受访的家庭。 EU-SILC 可能不会与作为HBS一部分而被采访的人群相符。因此，必须依赖数据融合方法来结合两个数据集的信息。越来越多的学者研究了使用统计匹配方法将缺乏共同标识符的数据集合并起来，尤其是在欧盟内部。例如，Donatiello等人（2016b）将该方法应用于意大利的数据，而Serafino和Tolkin（2017）则将其用于六个欧洲国家的数据。Lamarche等人（2020）考察了更广泛的欧洲背景，而Schaller（2021）则专注于德国、法国和荷兰。此外，Emmenegger等人（2022）也在德国应用了统计匹配方法。在本文中，我们应用统计匹配技术生成了罗马尼亚独特的支出和收入数据集。我们的目标是生成一个包含支出信息的数据集，具体来说是家庭的能源支出占比，并提供可靠的家庭收入信息以及个人获得社会保护情况的信息。由此生成的数据集使我们能够界定能源贫困群体，分析能源价格上升对福利的影响，并提出针对能源贫困的有效政策措施。为此，我们运用统计匹配技术将欧盟统计局家庭住户调查（EU-SILC 2020，以2019年为收入参考年）与住户预算调查（HBS 2019）进行匹配。2我们的最终目标是使用由此产生的数据集覆盖货币贫困与能源贫困。我们按照 Ruben(1986) 开发的方法估计多个插补模型，该方法连接数据集。你：统计匹配方法借鉴了插补的概念，该概念常用于处理缺失观测值（Bacher 和 Prander, 2018）。这些方法包括参数法、非参数法和混合方法等多种类型，如 Lewaa 等人（2021）所述。我们采用Ruben（1986）提出的方法，并选择匹配变量来合并两个数据集。我们识别出两个调查中都存在的潜在匹配变量，以帮助识别相似的家庭。然而，并不是所有重叠的变量都应该作为匹配变量；只有那些与目标变量相关且在调查中表现出类似分布的变量才应被视为匹配变量（Serafino 和 Tonkin, 2017）。在第一步中，我们对两个数据集进行标准化处理，以确保它们具有可比性。重叠变量。然后我们采用lasso回归来确定最能解释能源支出份额的关键变量。随后，基于这些选定变量，我们将两个数据集进行合并，并运行多种不同的插补模型：线性回归插补模型、预测均值匹配（PMM）以及截断回归插补模型。我们基于三个标准确定了性能最佳的插补模型。首先，我们评估估算的推断能源支出份额与观察到的分布之间的吻合程度，总体以及按子组进行分析。其次，我们分析均值估计和标准差在不同模拟中的变化以评估结果的一致性。我们在整体人口层面进行这种分析，并且还查看了一组随机匹配变量的子组。再次，我们检查每种模型在重复家庭预算调查并假设在重复数据中能源支出份额缺失时的表现。这些性能指标表明，预测均值匹配（PMM）插补技术的效果最佳。此外，预测均值匹配方法相较于其他方法具有多个优势，因为它易于使用且具有灵活性，并且在模型设定不准确的情况下比其他插补方法更加稳健（Van Buuren, 2012）。最后，我们比较了三种不同的模型规格，并发现加权PMM略微优于非加权PMM。我们利用匹配的数据集展示了货币贫困与能源贫困之间的强烈关联，揭示出大多数经历货币贫困的个体同时也受到能源贫困的影响。我们发现，在福利分布较低的群体中，能源支出所占比例明显更高。通过将能源支出份额和货币能源贫困的估计值与从EU-SILC获得的货币贫困测量值叠加，我们观察到几乎整个处于贫困风险中的人口也同时遭受着能源贫困。此外，大量罗马尼亚人口被认定为能源贫困，这表明传统的福利指标可能未能注意到该国的能源贫困问题。这突显了在罗马尼亚采取额外政策措施以解决能源贫困的必要性。进一步的分析还显示，福利状态较低的家庭将更多收入用于能源支出。因此，这些家庭可能会因能源价格的上涨而承受更大的负担，从而加剧他们已有的困境。几个重要的警告适用于我们的分析。我们在两个数据集中发现显著的匹配变量差异，这表明所抽样的个体在特征方面可能存在潜在的不一致性。此外，每项调查采用的抽样方法也存在差异。而且，调查的时间跨度也各不相同，这进一步增加了复杂性。这些系统性的差异可能对插补模型在准确捕捉纳入欧盟生活状况调查（EU-SILC）的家庭实际能源支出份额方面的有效性产生重大影响。最重要的是，如同以往的研究一样，在本研究的具体实证例子中我们无法检验条件独立假设的有效性。在解释本文呈现的结果时，应考虑到这些局限性。我们的研究补充了欧盟（EU）已开展的关于统计匹配技术的研究。在近年来，欧盟对统计匹配潜在应用的兴趣逐渐增加。一些先前的研究已经在这个领域进行了探索，例如Leulescu和Agafitei（2013）、Serafino和Tonkin（2017）以及Moretti和Shlomo（2022）的工作。我们的论文特别关注统计匹配技术在分析罗马尼亚的能源支出份额和能源贫困方面的应用。据我们所知，这是首次在该国探索数据融合方法的研究。此外，据我们所知，本研究是首次尝试使用统计匹配技术来填补能源贫困指标和能源支出份额的研究。以往的研究主要集中在收入或教育相关的指标上。增强调查的一致性并改善欧盟-SILCSubset内的数据集成将有助于未来统计匹配工作的开展。在本文讨论的两份调查背景下，各种进入点可以促进统计匹配技术在罗马尼亚的应用。首先，我们建议对不同家庭调查（特别是欧盟统计局的EU-SILC和国家统计局的HBS）进行更稳健的标准化过程，以支持基于匹配变量的数据融合方法。这一标准化努力将增强数据源的一致性，并促进匹配技术的应用。此外，跨国家统一HBS将简化将一个国家开发的方法应用于其他欧盟成员国的程序。最后，我们建议在EU-SILC中包含一部分家庭的支出信息。或者从汇总层面来看。这种包括方式将能够验证匹配技术的效果，并提供评估结果准确性和可靠性的手段。欧盟 SILC 中拥有支出信息将增强验证和细化匹配方法可行性和准确性的可能性。论文组织如下。第二部分描述了研究方法和数据。第三部分描述了罗马尼亚案例的应用以及能源贫困与收入贫困的重叠情况。第四部分总结全文。二、方法和数据两种总体方法主要用于数据融合：基于距离和基于模型。表1对这些方法进行了更详细的描述。基于距离的方法最小化R=(Y, Z)和D=(X, Z)之间的距离函数。从概念上讲，这种方法根据重叠变量Z寻找相似的观测值。示例包括带/不带重采样技术的统计匹配、最近邻技术、热区技术或聚类分析。根据Z上的相似性，使用捐赠数据中变量值X来填补受体数据中的缺失观测值。这种方法依赖于一些严格的假设条件，例如Z没有测量误差以及适当的距离度量（Bacher和Prander, 2018）。基于模型的方法首先在捐赠数据中估计X和Z之间的函数形式，然后将其应用于受体数据。这些方法假设捐赠数据和受体数据中X=f(Z)的函数形式相同。一些研究人员试图比较这些方法，但缺乏总体评估。例如，Schaller（2021）将热工位方法与预测均值匹配进行了比较，并得出结论认为预测均值匹配可能优于热工位方法，而Eurostat传统上推荐使用后者。多位研究人员表明，多重插补技术适用于稳健的数据融合（Rässler（2004）；Bacher和Prander（2081）；Todosijević（2012））。为了我们的目的，我们依赖于基于模型的方法。遵循Bacher和Prander（2018）的研究，从实证角度来看，首先在一个捐赠数据集中估计X和Z之间的函数关系，具体如下： Z 的功能形式，表示为 \( f(f(Z; \theta) \) ，可能测量的形式，如线性回归，例如：\( \delta \)，取决于总体参数。一个例子，以及潜在函数形式的不精确性假设具有具有估计模型参数的正态分布，缺失值估计为：011一个平均值....0 和的方差2 . based on the 重要的是，数据融合方法受到若干条件的约束，最为显著的

点击免费查看完整报告

统计匹配的收入和消费数据

罗马尼亚能源贫困与收入贫困统计匹配分析

引言

方法

结果

主要发现

结论

你可能感兴趣

收入和消费数据的统计匹配：罗马尼亚能源和收入贫困评估

低收入和中等收入国家的技能和工作不匹配

2025年非洲收入统计：非洲收入分类的共性和特异性

2024年非洲收入统计：促进和信任是选定非洲税务机关自愿纳税的驱动力

2024年非洲公共收入统计：非洲某些财政部门对自愿财政合规的促进和确认

2011年起盈利增速和收入将逐渐匹配

关于使用行政数据及其整合用于儿童和青少年统计目的的手册（英）2025

英维克1Q26业绩速评如何客观评价收入与利润的增速不匹配各位

当前经济与政策思考：消费的问题在于意愿、能力与渠道的不匹配

拉美经济委员会-1990-2019年拉丁美洲和加勒比收入统计、税收统计-2021.4-340页