代理数据模型: 解释大规模机器学习危机预测模型 豪尔赫·a·Chan-LauRuofei胡,卡里尼Ivanyna,Ritong,程恩华钟 WP/23/41 国际货币基金组织的工作论文描述充分预示 进步的作者(年代)和发表引起评论和鼓励辩论。 国际货币基金组织的工作论文的观点的作者(年代),不一定 代表基金组织及其执董会的观点,或国际货币基金组织的管理。 2023 2月 ©2022国际货币基金组织(imf)WP/23/41 国际货币基金组织的工作论文 战略、政策和审查部门 代理数据模型:解释大规模机器学习危机预测模型 编曲:JorgeA.Chan-Lau、胡若飞、MaksymIvanyna、RitongQu和ChengZhong编写 授权供NataliaTamirisa分布 2023年2月 基金组织工作文件描述了作者的研究进展,并发表以引出 评论和鼓励辩论。货币基金组织工作文件中表达的观点是 作者,不一定代表基金组织、其执董会或基金组织管理层的观点。 文摘:机器学习模型在经济预测中变得越来越重要 危机。然而,这些模型使用的数据集包含大量预测因子(特征),这会损害模型可解释性及其在危机预防设计中提供充分指导的能力 缓解策略。本文介绍了代理数据模型作为大规模降维工具 危机预测模型。这种方法的适当性是通过它们在大规模中的应用来评估的国际货币基金组织开发的危机预测模型。结果与经济学直觉一致,并验证了代理人作为可解释性工具的使用。 冻胶分类数字: C53、C55E37 关键词: 危机的预测;机器学习;代理人;可辩解的模型 作者的电子邮件地址: jchanlau@gmail.com,rhu@imf.org,mivanyna@imf.org, rqu@imf.org,czhong@imf.org 工作底稿 代理数据模型: 解释大型机器 学习危机预测模型 由豪尔赫·陈刘、胡若飞、马克西姆·伊万尼娜、瞿Ritong,程名 1作者要感谢PeterDohlman,MichaelEvans,XuehuiHan,SandileHlatshwayo,LucaMungo,Natalia 塔米丽莎和辛伟宁的有益评论。任何错误或遗漏均由作者自行负责。请解决通信作者。 内容 介绍。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。 。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。 。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。3 ML危机预测模型的简短调查4 使用代理数据模型增强ML危机预测模型的可解释性5 代孕模特和功能重要性5代理数据模型7 国际货币基金组织ML危机模型的应用8 功能选择9 代理数据模型:估计100代理数据模型:结果111 结论。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。 。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。 。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。16 引用。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。 。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。 。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。18 附件一.基金组织ML模型、危机事件定义232数据 附件二1..国代际理货模币型基和金代组理织数M据L模型,的模方型法功7能254 2.国家组和全球模式的线性组合。103.间隙块交叉验证11 4.VE指数、SDM指数、预测和不利情景。12 5.SDM指数:沙普利值分布15 6.SDM指数:SHAP分解17 表 1.代理模型中使用的变量9 2.基于收入的国家组模型的最佳权重113.出场演出12 4.五年情景:国际货币基金组织(2022年)基线和不利情景13 1。介绍 经济危机代价高昂。随着经济活动的急剧收缩,投资减值减少国家的长期增长和生产率前景,并导致永久性产出损失。例如 巴尼雄。(2018)估计2017年全球经济衰退十年后美国潜在产出各国收敛到比危机趋势所暗示的水平低约12个百分点。罗默和罗姆· (2017)发现,金融危机发生五年后,国内生产总值约为9% 经合组织国家的点较低。塞拉·埃塔尔提出的实证估计。(2021)适用于多个国家表明金融危机后的产出在十年后仍然永久低迷。 为了尽可能减少和避免与经济危机相关的成本,中央银行和政策使机构投入大量资源开发预警系统和危机预测 模型。首先,这些系统旨在识别经济和金融失衡,使经济 容易受到经济和金融困境的影响,最终还可能遭受经济危机。其次,通过识别危机发生前的经济和金融驱动因素,该系统可以帮助政策制定者预防 通过使用有针对性的策略实现危机。 危机预测模型受益于在 机器学习。其中一些模式已在中央银行和多边金融中实施。 机构,并帮助加强了政策建议。大多数模型包括m任何特征(解释变量)并使用适合捕捉危机前普遍存在的非线性效应的方法和技术 插曲。然而,预测能力的提高是以降低模型可解释性为代价的,这降低了模型对指导策略决策的有用性。不了解主要内容 危机驱动因素及其相互作用,很难相信模型预测,评估其有效性降低经济危机可能性的政策措施,获得有利于模型的见解 改进。 本文建议使用代理数据管理器(SDM)来降低机器学习的维度 (ML)危机预测模型并增强其可解释性。通过将要素集限制为那些 经济分析师通常进行监控和预测,代理数据模型可以将模型结果转化为高级政策M·阿克斯熟悉的经济领域。此外,这些模型在很大程度上促进了 “假设”情景分析。这种说法必须根据实际应用来判断。因此,我们提供了一个最近应用于一套ML模型的代理数据模型方法的具体说明 在国际货币基金组织制定以预测部门经济危机(国际货币基金组织,2021年)。 本文的其余部分对最近的ML危机预测模型进行了简短的选择性调查,然后讨论如何使用代理模型来增强ML模型的可解释性。A.讨论 描述代理项数据模型的概念基础。作为具体示例,我们继续申请国际货币基金组织开发的一些ML危机预测模型的方法,并显示其对 对国际货币基金组织于2022年4月公开发布的经济预测进行情景分析。从代理数据模型案例研究中推断出的经验教训。 2。短的调查毫升危机预测模型 早期的危机预测研究大量使用概率和/或对数模型(Eichengreenetal.,1995;弗兰克尔和Rose,1996)和非参数信号提取(Kaminskyetal.1998)。最近应用的工作 危机预测和预警系统已经超越了这些传统方法,将 机器学习方法。这些方法倾向于强调可预测性而不是随意性 推理,可以处理大量特征(解释变量),并且可以捕获非线性效应优于广义线性Model,例如逻辑回归和多项式回归。非详尽无遗recentwork列表如下综述。 Holopainen和Sarlin(2017)对传统统计方法和机器进行了比较15个欧洲国家银行危机预警系统的学习方法。他们找到了机器 学习M个Ethods,如k-最近邻、神经网络和集成学习模型,表现优于 样本外预测练习中的逻辑回归。 布鲁斯坦·(2021)金融危机不同预警机制表现比较 对1870-2016年期间17个发达经济体样本的预测。型号包括16 特征(解释变量)旨在捕捉国内和全球经济以及信贷周期。在 除了逻辑回归之外,他们还实现了各种机器学习模型,包括决策树、随机森林、极度随机化树、支持向量机和人工神经网络。除了 对于决策树,所有机器学习MOdel的表现都优于逻辑回归。数量有限的特征允许应用Shapley回归(Joseph,2020),该回归识别信用增长和 收益率曲线的斜率是金融危机的主要预测指标。 弗利亚德·(2021年)表明可以预测欧盟的系统性财务压力事件国家和美国提前三年使用一组不同的机器学习机制。他们 方法在经济数据可用后立即按顺序纳入经济数据的信息,a 在ML文献中称为在线学习的顺序过程。使用的模型244个特征观察到季度频率,其中约一半可用于在线估算。 Hellwig(2021)表明,传统的计量经济学模型无法超越简单的启发式“规则拇指“对发达经济体、新兴市场国家和低经济体财政危机的预测 收入/发展中国家。另一方面,弹性网络、随机等机器学习技术森林和梯度提升树在预测变量数量较大时提供卓越的性能。这些模型基于广泛的预测因子集,包括经济、金融、人口和机构变量,以及原始变量的各种特征工程,包括滞后、时态变化,平均水平。 国际货币基金组织(2021年)描述了一组不同的ML预测模型,每个模型都针对预测影响不同经济部门。例子包括:金融危机,财政危机,对外部门危机(余额 支付危机)和真正的部门危机。与本文综述的其他研究相比,数据集涵盖更多国家(所有190个国际货币基金组织成员国),每个部门危机模型包括大量 功能,包括多个数据转换。使用的危机事件定义反映了需求政策 国际货币基金组织的面孔。1由于覆盖国家范围广,数据插补技术被用于解决缺失问题数据问题。使用合成过采样方法处理由 少数危机观察之间的不平衡。赛马比较显示ML模型表现优异除外部部门危机外的传统方法,信号提取方法仍然是 最合适的建模技术。评估了特征对危机预测的贡献(重要性)使用SHAP方法(请参阅下一节功能重要性)。 Hacibedel和Qu(2022)研究了系统性非金融企业部门困境,由普遍的一个经济体中企业的违约概率增加。ML模型的集合由下式构建 优化池化梯度提升树、线性判别和对数套索以预测 一年的时间。该模型利用了涵盖国内和国际的总共40个预测因子 宏观经济变量、企业资产负债表变量和基于模型的PD来自CreditResearch 新加坡国立大学的倡议(2019年)。该论文表明,集成模型具有更好、更鲁棒的性能反对不同时间段和国家组的单个模型成分。 尽管上述结果表明ML模型优于传统的危机预测模型, 需要谨慎行事,因为结果可能取决于危机的定义和所使用的数据样本。Beuteletal. (2019)发现机器学习模型可能不一定优于标准计量经济学技术 在所有情况下。研究人员使用发达经济体的样本,涵盖45年的数据样本 1971-2016年以及从不同银行危机事件研究中收集的一系列危机事件发现,Machine 学习模型虽然通常提供良好的样本内拟合,但未能满足Logitmodel的性能系统性银行危机(包括2007-8年全球金融危机)的递归样本外预测。 这些结果表明,ML危机预测模型的性能高度依赖于危机使用的定义,危机和非危机观测之间的不平衡程度,以及数据集功能。结果还表明,基于手头任务的试错法是 合适的。 3所示。加强毫升危机预测模型使用代理数据模型可解释性 代理模型和特性的重要性 大多数危机预测模型使用的大量特征阻碍了它们的可解释性。没有清除理解特征重要性来评估危机可能性或投入产出关系,它是 难以调和从理论危机、实证工作和过去的政策决策中得出的教训具有高维复杂模型的输出。替代模型解决了缺乏直觉的问题 存在于后一种模型中。代理模型,广泛应用于工程设计优化和仿真,是简单的近似model,模仿复杂系统和模型的行为,较低 计算成本提供了对系统动态的更清晰理解(Forresteretal.2008)。 1见附件。 在机器学习中,代理模型的使用旨在增强模型的可解释性,包括测量不同特征对模型输出的贡献(BurkartandHuber,2021)。假设原始模型由于其复杂性和高度非线性的性质而类似于黑盒,更容易理解 黑盒输出,如果更简单的可