您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国际清算银行]:合成控制法与机器学习的应用:劳动力 deregulation 对巴西工人生产率影响的研究 - 发现报告

合成控制法与机器学习的应用:劳动力 deregulation 对巴西工人生产率影响的研究

2024-04-26国际清算银行冷***
AI智能总结
查看更多
合成控制法与机器学习的应用:劳动力 deregulation 对巴西工人生产率影响的研究

机器学习合成控制方法:对巴西劳动去管制化对工人生产力影响的应用 道格拉斯 K. G. Araujo 货币和经济部 2024 年 4 月 JEL分类:B41, C32, C54, E24, J50, J83, O47 关键词:因果推断, 合成控制法, 机器学习, 劳动制度改革, 生产率 BIS 工作文件由货币和经济组织成员撰写国际清算银行部 , 并不时由其他机构经济学家 , 并由世行出版。这些论文是关于主题的兴趣和技术性。他们表达的观点是他们的观点作者 , 不一定是国际清算银行的观点。 该出版物可在 BIS 网站(www. bis. org) 上获得。 © 国际清算银行 2024。保留所有权利。未经许可,不得复制或翻译,但可以转载简短摘录,前提是必须注明来源。 ISSN 1020 - 0959 (打印) ISSN 1682 - 7678(在线) 合成控制法与机器学习的应用:劳动力市场化改革对巴西工人生产率影响的研究∗ 道格拉斯 K. G. Araujo11国际清算银行 , douglas. araujo @ bis. org Abstract 合成控制方法是一种基于数据的方法,用于通过控制个体计算反事实情景,以估计许多实际重要场景中的治疗效应。在经典的实现中,这种加权通常是线性的,而供体池选择和治疗实体与其合成控制之间的协变量比较的关键方法步骤依赖于一定程度的主观判断。因此,在大数据集的场景下,当前的方法可能不会表现最佳,尤其是在最佳合成控制是由供体池个体的非线性组合获得的情况下。本文提出了一种“机器控制”方法,即基于聚类算法自动选择供体池、监督学习进行灵活的非线性加权以及流形学习来确认合成控制是否确实类似于目标单元的合成控制方法。该机器控制方法通过分析2017年巴西劳动力制度改革对工人生产力的影响进行了演示。与改革实施时政策制定者的预期相反,没有明显影响工人的生产力。这一结果指出了提高生产力水平的深刻挑战,也即随之而来的经济福利提升的挑战。JEL: B41, C32, C54, E24, J50, J83, O47. 关键词:因果推断,合成控制,机器学习,劳动制度改革,生产力。 1 Introduction 合成控制(SC)方法(Abadie和Gardeazabal(2003年),Abadie、Diamond和Hainmueller(2010年),Abadie、Diamond和Hainmueller(2015年)) ∗这项工作代表我的个人观点,而非国际清算银行的意见。感谢Ben Cohen、BIS非正式机器学习社区成员以及亚美尼亚银行美国大学、国际清算银行、加拿大银行、IÉSEG和国际货币基金组织 seminar 的参与者们提供的宝贵意见和问题。本文的实证研究简化版作为gingado库的一个示例发表(Araujo (2023))。所有错误均由本人负责。 广泛应用于仅在较大群体中的一个或少数实体中估计干预措施的因果效应。核心思想是在未干预情况下基于控制个体的预干预信息计算SC(标准化差值),然后将其作为处理单位潜在结果的估计值。干预后实际值与SC之间的差异被解释为因果效应。SC方法的主要优势之一是基于数据驱动的控制单元加权,而不是简单的平均或主观判断(例如,人工选择替代方案)。然而,在从较大群体中选择形成“捐赠池”的控制单元以及用于评估估计的控制与处理个体拟合程度的变量时仍存在较大的主观性空间。此外,SC的典型线性回归格式依赖于隐含的线性假设,在涉及控制单元之间更丰富的交互作用能够更好地表示目标单位在处理前的情况时,这一假设可能不成立。 本文 argue rằng,机器学习技术能够获得比现有应用更为数据驱动的估计结果。特定算法可以在没有人类干预的情况下从更大的群体中选择控制单元,使用灵活的函数形式进行反事实估计,并允许更简单易懂和分析的目标单元与控制单元之间的比较。“机器控制”方法通过评估巴西2017年广泛的劳动法规改革对工人生产力的影响来说明这一点,有助于解决长期存在的政策辩论(Vergeer和 Kleinknecht (2010))。在这种情况下,尽管政策制定者预期每年可增加1.5%-2.0%的生产力增长,但改革并未显著影响平均工人生产力。 考虑一个面板时间序列,其中时间期数为\( t = (1, \ldots, T_0, \ldots, T) \),个体或单位集合为\( j \in J \)。对个体\( j = 1 \),在时间期数\( T_0 \)处施加一项干预或治疗,并且此干预或治疗持续到所有后续时期。1一些感兴趣的结果等于干预下的潜在结果퐼 푗,푡푗,푡 当 = 1 且 ≥ 0 时 , 或在没有其他干预的情况下 ,푁.푗,푡 人口中的一些(但不一定是全部) 辛 1 个人是关于 的信息푁;J{1} 是包含这些单位的集合。以下分析1,푡 假设푁可以通过潜在的非线性组合来估计1,푡 R(퐽)→R(푌 )一个估计器函数,以控制单元的协变量 \( Z \) 作为输入,可能或可能不包括感兴趣的实际结果变量。 푗,푡。在超人口相对较大或包含 模型在样本外的表现(即使略有偏差)或仅仅是因为在大量控制变量的情况下,估计值.toArray可能不会快速收敛,即使它们푌 在这项工作中 , 聚类算法使用干预前的数据来选择捐赠者是信息。 使用函数(J) , 也只有干预前的数据 , 如 :푌̂ 例如 , 如果 = (Doudchenko 和 Imbens(2016)) , 则 SC 为푗,푡푗,푡̂ ̂푌푁= ̂ 휔 (J). If ̂ 휔 (J) 能够在푌푌1,푡 1,푡 干预 , 然后在 0 之后的时期 , SC 能够很好地识别效果 EstimatingJ而不是使用所有不属于{1}的元素,在许多实际应用中,选择这些元素对于最小化插值偏差非常重要(Abadie, Diamond, and Hainmueller (2010))。在大数据设置中,选择也非常重要,以确保估计结果在计算预算范围内。但选择要查找的过程J通常具有主观性,这允许分析师将专家知识融入选择过程,干预前价值观与治疗单位相比 , 与其他SC,푡<푇 0푍, 以表明 (, 푍) < 푑(푍, 푍) 对于一些̂̂1, < 0 SC , < 01,푡<푇 0 但同时也引入了控制措施。可能对 没有最好的预测能力푁, 留下重要信息푗∈J,푡<푇 0푗∈J,푡<푇 0距离测量 。 位于或可能包括无信息单元之后。这一问题在通过估计SC本身来一定程度上缓解,因为SC只需要有较好的预处理拟合(但不一定是最优的);而通常稀疏的估计可以处理无信息的控制变量。2一个主观选择带来的更严重问题是,它为指责调查样本被挑选以达到特定结果打开了口子。通常,这通过一个明确的故事叙述来主动解决,解释调查样本的选择过程和标准。的选择J。但一种更具结构性和数据驱动的方式来解决这两个问题 J基于一些相似性度量 问题是使用从数据中估计的算法 , 而没有人类的主观性。 这些被称为聚类算法 ,3因为它们将最相似的单元识别为更大人群内的一个组。这些技术保护分析师免受与控制单元选择的真实或感知到的主观性相关的批评,无论这些选择多么谨慎且合理。事实上,我在实践中观察到的一个优点是这些 方法经常找到的元素J这可能会让专家感到有些意外。另一个优势在于,这些聚类可以通过(潜在高维的或包括新数据如文本嵌入的数据空间),在这个空间中找到与处理个体相似的单元,这个空间可能与 \(Z\) 不同。当治疗倾向由理论定义时,可以明确地将这些变量纳入考虑,以选择具有相似倾向但未接受治疗的对照组。 下一步涉及加权的元素J. 标准的SC方法是对控制单位进行非负系数的约束线性回归。Doudchenko和Imbens(2016)讨论了其他更具弹性的线性模型,包括非负系数或常数项。然而,这些仍然是线性模型,因此可能在多种实际应用中并不适用,特别是在……在哪里 #J在0.这部分中,机器学习技术也能提供帮助。监督学习方法,如随 机森林(Breiman, 2001)或神经网络(Goodfellow、Bengio和Courville, 2016),具有足够的灵活性,并且即使在复杂情况下也能很好地进行正则化。适应非线性数据生成过程 对于高维度输入。这些方法由于其实践中通常表现出更优秀的预测能力(Athey和Imbens(2019)),越来越多地被应用于经济估计任务中,尽管这可能会牺牲估计的透明度,尤其是在与经典SC方法相比时,后者提供了透明性和专家审查,允许专家检查控制单元的个体贡献并对其充分性做出判断(Abadie 2021)。 控制的 (可能是非线性的) 组合 (J) 来自方程1已校准 专门从干预前的数据用于估计干预后的的值푁。监督学习技术的一个优点是潜在的1,푡 响等事件,在控制数据可比性稀缺的情况下进行研究。在这种情景下,非线性数据甚至非传统数据也可以用于估算SCs(治疗效应),因此在\(T_0\)之前测量SC与受治疗个体匹配程度变得至关重要。我认为检查一个估计值\(\hat{ }\)质量的过程非常重要。SC 作为其估计过程的第三步 , 在选择J和估计 (J) 。像前两个步骤一 样 , 规范应用中 SC 的评估 也提供了在选择目标实体和SC应匹配的协变量时主观性较大的空间。不同的组合 4陈杰(2023)通过将供应链(SCs)比作在线学习,展示了供应链在实际中的表现并不依赖于底层的结果生成过程,从而推广了文献中最常发现的数据生成过程模型(如线性因子模型或向量自回归模型,参见Abadie, Diamond, and Hainmueller (2010))。 基于机器学习技术(通常称为流形学习)的方法可以使这一过程更加依赖数据,并且同时更容易进行分析。其核心在于流形学习算法基于流形假设,该假设认为许多观察到的实际生活中的数据过程实际上是高维表示的一个更低维度的流形。直观地说,这与多个经济时间序列高度相关的观察是兼容的。流形学习技术通过将输入数据映射到较低维度的空间来找到这些低维度表示,同时仍然保留了每个个体或单元之间差异的主要信息。̂另一个。换句话说 , 这些算法比较 εJ∪ {1} ∪ { ̂ 휔 (J)} on a 푍 在基础数据流形上的位置使得它们能够在这一估计流形中的距离提供一个实际的拟合优度检验:理想情况下,受处理单元与其他(实际)单元相比,结构变化(SC)应更接近于受处理单元。 因此,通过结合上述列出的方法,可以实现完全基于数据的SC(研究对象)估计。这些增强机器学习的SC,简称“机器控制”方法,在以下特征的环境中可能会有所帮助:(a) 每个采样实体都有大量相关数据点可用;(b) 存在大量潜在的捐赠者实体;(c) 形成控制的最佳捐赠组合不一定是线性的;(d) 所关注的变量可以通过可能高度复杂的数据进行测量。这种自动化且灵活的过程可能因其结果对数据依赖程度更高而提供更高的可信度,从而适用于基于SC的推断。它们还允许在数据丰富的环境中更有效地进行估计。此外,这种方法可以被视为一种方式,用于更有说服力地论证所选择的控制实际上是对处理单位的有效反事实。这些算法在其他科学领域中有广泛的应用,其中一些方法在经济研究和实践中也越来越受欢迎。 1.1 文献 机器控制技术将不同的机器学习技术拼合在一起。这与越来越多的趋势相吻合,即在经济学研究中应用机器学习方法以更好地探索可用数据的丰富性,正如Athey和Imbens(2019)、Athey(2018)以及其他论文所强调的那样。除了上述经典的结构因果(SC)应用之外,本文还受到Doudchenko和Imbens(2016)、Ferman、Pinto和Possebom(2020)的研究启发,他们详细探讨了结构因果在更多方面的含义;以及Viviano和Bradic(2022)、Athey等人(2019)和Quistorff、Goldman和Thorpe(2020)的研究,他们研究了非参数方法在结构因果估计中的应用,包