结构改革和经济增长:机器学习方法 AnilAri、GaborPula和LiyangSunWP/22/184 基金组织工作论文描述了作者正在进行的研究并发表以征求意见和鼓励辩论。 基金组织工作文件中表达的观点是作者的观点,并不一定代表基金组织、其执董会或基金组织管理层的观点。 2022 九月 ©2022国际货币基金组织WP/22/184 基金组织工作文件 欧洲部 结构改革与经济增长:由AnilAri、GaborPula和LiyangSun编写的机器学习方法 由IvannaVladkovaHollar授权分发2022年9月 基金组织工作论文描述了作者正在进行的研究并发表以征求意见和鼓励辩论。基金组织工作文件中表达的观点是作者的观点,并不一定代表基金组织、其执董会或基金组织管理层的观点。 抽象的:大多数结构性指标的定性和细粒度性质以及数据来源的多样性给一致的跨国评估和实证分析带来了困难。我们通过使用机器学习方法(偏最小二乘法)来克服这些问题,将广泛的跨国结构指标组合成少数与关键结构领域相对应的综合评分,这些评分适用于一致的定量比较跨越国家和时间。借助这个新构建的2000-2019年间126个国家的综合结构得分数据集,我们建立了有关结构差距和改革的程式化事实,并分析了针对不同结构领域的改革对经济增长的影响。我们的研究结果表明,产品、劳动力和金融市场以及法律制度领域的结构性改革对未来5年的经济增长产生了重大影响,其中一个改革领域的标准差提高一个标准差,累积5-年增长2%至6%。我们还发现不同结构领域之间的协同作用,特别是产品和劳动力市场改革之间的协同作用。 推荐引用:Ari,A.、Pula,G.和Sun,L.(2022)。结构改革和经济增长:机器学习方法。基金组织工作文件,WP/22/184 JEL分类号:E02、C54、C55、D58、O43、O47关键词:结构改革、制度、经济增长作者的电子邮件地址: 工作稿 结构改革和经济增长:机器学习方法 由AnilAri、GaborPula和LiyangSun编写1 1作者感谢IvannaVladkovaHollar、IppeiShibata、MarinaMendesTavares和IMF研讨会参与者提出的有益意见和建议。SamuelVictorRomeroMartinez提供了出色的研究协助。可根据作者的要求提供合成结构分数的数据集。所有的错误都是我们自己的。 内容 I. II. A. B. C. D. III. A. B. C. IV. A. B. C. I.介绍 政策制定者经常进行结构性改革,以帮助从危机中复苏并刺激经济增长。这让政策制定者有责任确定哪些结构性改革的组合和顺序最能促进增长(IMF,2015;Rodrik,2010)。然而,一个关键挑战是结构性改革本质上难以衡量,因为它们通常涉及旨在提高市场效率的政策。常用方法根据消除低效率的 监管变化的强度来量化结构改革(例如,参见Alesina等人,2020)。虽然这些方法为政策行动的影响提供了宝贵的见解,但它们可能无法完全反映改革成果,这取决于政策实施的具体情况以及实施改革的环境。这些方法的另一个缺点是,由于数据可用性有限,它们的国家覆盖范围有限。其他方法依赖于基于调查的结构性成果指标来评估结构性改革的影响并进行跨国分析(例如,参见Egert和Gal,2016;Egert,2017)。虽然这些指标提供了有关结构性能的信息,但由于指标数量众多、它们之间的相关性以及可能由其主观性质引起的偏差,实证分析变得复杂。 我们使用机器学习方法从大量结构指标构建合成结构分数。我们的分析通过使用偏最小二乘法(PLS)来聚合增长分析的结构指标,而不是简单的平均或临时加权方案,从而为现有文献做出贡献。我们的PLS加权方案为更能预测高人均GDP的指标分配更高的权重,从而从可用数据中提取有用信息,同时 消除与主观和基于调查的指标相关的噪音和偏差。我们的方法还考虑了结构指标之间的相关性和冗余性,因此避免了简单平均会遭受的重复偏差。1 我们的综合结构分数基于丰富且分类的结构指标数据集。我们依赖基金组织的结构和金融指标数据库 ,该数据库来自多个来源,包括来自126个国家的275个结构指标(图1)。2然后,我们将这些指标分为IMF(2015年)确定的六个结构领域:金融体系(77)、贸易和开放(28)、法律体系(37)、劳动力市场(74)、商业环境(45)和税收政策(14)。然后,我们为每个结构区域构建一个综合结构分数,作为基础结构指标的PLS加权平均值。 1我们的方法建立在Ari和Pula(2021)的基础上,后者提出使用主成分分析(PCA)来形成合成结构因子。PCA权重考虑了各个指标之间的相关性,但对指标重复很敏感,由于数据源的重叠,这在我们的数据集中很常见。 2我们的分析包括来自世界银行营商环境(DB)数据集的指标,该数据集最近因担心数据操纵而被暂停。虽然这对我们的研究以及结构改革文献的重要部分构成了一个缺点,但值得注意的是,这是我们旨在通过PLS方法减轻的主观偏见的形式。 图1.结构指标概览 结构性指标来源结构性指标领域 使用综合结构性评分,我们发现某些结构性领域的改革对增长产生了显着影响,以及不同结构性领域之间的协同作用。我们的研究结果表明,产品、劳动力和金融市场以及法律制度领域的结构性改革对未来5年的经济增长产生了重大影响,其中一个改革领域的标准差提高一个标准差,累积5-年增长 2%至6%。我们还发现不同结构领域之间的协同作用,特别是产品和劳动力市场改革之间的协同作用 。 本文的结构如下。第二部分概述了数据并讨论了我们估算缺失指标的方法。第三节应用PLS基于估算指标构建综合结构分数,控制各个结构指标之间的相关性,并分配权重以反映指标对输出的预测程度 。第四部分使用综合结构分数来分析结构改革对增长的影响。最后,第五节得出结论。 II.结构指标 A.数据概览 结构性改革的绩效是使用量化指标来衡量的。大量结构性指标的跨国数据来自基金组织的宏观结构数据库,该数据库结合了多个来源的数据。然后将这些指标分为六个更广泛的宏观结构领域,如下所示 : -法律制度,包括与腐败、治理、犯罪、法治和产权保护相关的结构性指标。 -金融体系,涵盖与金融发展、金融服务获取以及银行业和金融市场稳健性有关的结构性指标。 -产品市场,其中包含有关产品市场竞争、非正式性以及行政和监管负担的结构性指标。 -劳动力市场,包括与最低工资和其他影响劳动力市场灵活性的法规相关的结构性指标。 -税收政策,捕捉与各种税收相关的激励扭曲。 -贸易和开放,包括关税和非关税贸易壁垒。 我们排除了反映商业周期而非金融机构质量的周期性金融指标。1 数据覆盖范围因国家和年份而异,缺失模式是系统性的,而不是随机缺失。例如,若干指标每隔一年才更新一次,而若干指标的覆盖范围仅在最近几年才开始。作为估算缺失值的第一步,我们从2000年开始取指标的五年平均值。为了避免缩小方差,我们只保留每五年的数据。然后,我们排除 缺失值超过20%的指标,并通过附录0中所述的多重插补程序来插补其余缺失值。对于可以在插补方法中适当考虑的最大缺失值比例没有简单的建议.对于超过20%的阈值,结果开始变得不稳定,我们将其留给未来的研究来衡量最佳插补量。 1周期性金融指标的例子是发行的银团贷款总量和私人信贷的可用性。 B.通过偏最小二乘法合成结构分数 鉴于结构指标数量众多,降维对于提高可解释性以进行进一步分析是必要的。我们对这些指标进行以下观察: -我们希望捕捉与强劲经济表现相关的指标,这些指标可以通过预测未来高人均GDP的能力来衡量。 -这些指标可以在结构区域内和跨结构区域高度相关。 -我们有许多与样本量相关的指标。有275个指标,与504个样本量(2000-04、2005-09和2010-14、2015-19的126个国家和4个时间段)相比,这是可观的。 这些观察激发了适当的降维方法。朴素的预测方法是对这些指标进行线性回归估计,并将预测值用作综合得分。但是,当线性回归模型中有许多相关变量时,它们的系数可能会变得不稳定:一个指标上的大正系数可以被其相关指标上同样大的负系数抵消。LASSO在允许高维指标方面改进了线性回归 ,该指标假设结果变量只有少数几个预测变量。虽然这种假设更有可能在某些情况下成立,例如预测Ari等人的不良贷款。(2021年),我们的结果变量不太可能成立,即未来人均GDP的对数(以PPP为单位)。因此,LASSO会过多地减少维度并导致预测性能不佳。 另一种常见的降维技术是主成分分析(PCA),它寻求各国之间差异很大的指标的加权平均值。这样做的好处是可以充分利用可用信息来最大限度地减少与任何单个结构性指标相关的噪音,并且它还提供了一个加权方案来说明各个指标之间的相关性。然而,当我们有多余的指标时,这种方法表现不佳 o2 偏最小二乘法(PLS)是一种灵活的机器学习技术,可以实现这两个目标并且适合我们的设置(Hastieetal.,2009)。PLS通过添加预测模型改进了PCA。要在PLS加权方案下获得高权重,指标还需要预测结果。PLS还通过考虑各个指标之间的相关性来改进线性回归。与LASSO不同,PLS不假设只有少数指标可以预测结果。在附录C中,我们还说明了PLS与基于结构指标的简单平均值的分数相比的优势 。下面我们提供有关PLS方法的更多详细信息。 2例如,弗雷泽研究所的经济自由指数是根据WDI、WEFGCR、WGI和WBDoingBusiness的数据构建的。因此,当我们将源指标包括在内时,弗雷泽研究所的指标是多余的。虽然可以根据对指标数据源的仔细检查来手动消除这种冗余,但我们专注于数据驱动的方法。 C.PLS估计程序 , 让表示国家指标的向量有时.每个指标向量来自六个结构区域之一.让索引进一步表示结构区域内指标的子类别。PLS方法估计未来五年人均GDP的以下预测模型(,): 𝑦𝑖,�=�+∑∑𝜃�∑ □ ,+ ,, (1) 在哪里索引使用的组件数量。由于方程(1)的LHS是未来五年的人均GDP,我们使用2000-2010 年指标的最大可能样本来估计方程(1)。然而,由于我们的目标是良好的预测性能,当我们估计方程 (1)时,我们不能只选择组件的数量来最大化2000-2010年的样本内拟合。因此,我们使用留一法交叉验证来确定组件的数量,这表明八个组件提供了最佳的预测性能。 与最小化样本内预测误差的线性方法不同,PLS方法使用由以下描述的四个步骤组成的迭代过程来估计方程(1)。该过程提供了对过程系数大小的隐式正则化(参见步骤4),它改进了线性方法。在操作上,我们使用R库plsr来实现PLS。 用原始数据初始化等式(1)的右侧(RHS)并初始化 ,, 具有结果样本均值的预测左侧(LHS).请注意,RHS被标准化为均值零和标准差一。为了𝑚-th组件, , PLS算法进行如下: , 1)根据原始输入形成组件 𝑧 =∑��𝑐,(𝑚−1)(2) 在哪里)是原始输入和结果之间的协方差; □, 2)计算组件前面的系数作为对组件的结果进行回归的OLS系数 �= (,, (3) ) () 3)到目前为止,使用所有组件预测结果 =+� (𝑚)(𝑚−1)(4) ,, 4)正交化�关于组件�获取更新的输入𝑥.这个 ,, ,() 确保下一个组件+1,这是一个加权平均值,,不相关 𝑧𝑚.在此步骤中考虑了指标之间的相关性。此外,更新的输入�是原始输入的加权平均值𝑥,权重反 映 ,, 原始输入的协方差及其与结果的协方差。 D.合成结构分数作为PLS模型的预测值 我们在给定类别中构建了2000-2015年的综合结构得分�作为PLS模型(1)的预测值,使用2000-2015