通过自举部分边际效应和Shapley值解释机器学习 托马斯·R·库克,扎克·D·莫迪格,内森·M·帕尔默 2024-075 请引用本文为:Cook, Thomas R., Zach D. Modig, and Nathan M. Palmer (2024). “Explaining Machine Learning Performance with通过自举部分边际效应和Shapley值进行学习,“金融与经济”2024-075. 华盛顿:美联储理事会系统,https://doi.org/10.17016/FEDS.2024.075. 注意:金融与经济讨论系列(FEDS)中的员工工作论文是供讨论和批评意见的初步材料。所提出的研究分析和结论是作者的观点,并不代表研究团队其他成员或理事会成员的共识。出版物中对于金融与经济讨论系列(除致谢外)的引用,应与作者协商,以保护这些论文的试探性特征。 通过自举部分边际效应和Shapley值来解释机器学习 托马斯·R·库克∗†扎克·莫迪格†‡纳森·M·帕尔默†‡ 2024年8月6日 摘要 机器学习和人工智能常被描述为“黑盒”。传统的线性回归通过回归系数所捕捉的边际关系来解释。我们表明,任何机器学习模型的相同边际关系可以通过计算部分依赖函数的斜率来严格描述,我们称之为部分边际效应(PME)。我们证明,OLS的PME与OLS回归系数在分析上是等价的。自助法提供了PME点估计的标准误差和置信区间。我们将PME应用于一个享乐主义房价定价示例,并证明了神经网络、支持向量机、随机森林和梯度提升模型的PME揭示了机器学习模型发现的非线性关系,并允许直接比较这些模型与传统线性回归。最后,我们将PME扩展到Shapley值分解,并探讨如何利用它进一步解释模型输出。JEL分类:C14,C18,C15,C45,C52 1 引言 机器学习(ML)和人工智能(AI)方法通常被视为黑盒:它们可能会捕捉到数据中的有用交互和非线性,但它们的形状和 关系的性质难以确定。在金融和经济领域,使用机器学习模型的需求日益增长,其用途从学术研究到信用审批等各个方面。同时,机器学习可解释性正日益受到金融监管机构的关注。2021年,五家美国金融机构共同发布了一项关于金融机构使用机器学习和人工智能的信息请求,其中包含一个专门讨论机器学习可解释性的子部分。1同样,Brainard(2021)指出,可解释性的缺乏是面临使用机器学习方法为金融服务的问题之一,并概述了这些困难是如何表现出来的。 传统的回归模型通常通过其边际效应来解释,无论是通过点估计还是这些点估计的不确定性。在简单的线性模型中,边际效应体现在系数参数中,每个系数的点估计和方差通常会在回归表中显示。相比之下,机器学习模型中深度模型参数与模型的边际关系之间没有简单的关联。例如,一个深度神经网络可能有成千上万个与任何单个边际关系相关的参数。 本文提出了一种解决方案:直接构建任何机器学习模型的边际效应,作为弗里德曼(2001年)的局部依赖函数(也称为局部依赖图或PDP)的斜率。在机器学习文献中,PDP传统上以水平形式展示,并且仅计算PDP的点估计值。然而,简单证明,当应用于线性回归时,PDP的斜率直接复制回归系数,而自助法产生的标准误差与OLS的解析结果相当。当应用于非线性机器学习模型时,这种方法以模型无关的方式推广了回归系数的概念。我们将PDP的斜率称为部分边际效应,或PME。这种方法允许直接比较线性模型的回归系数和非线性机器学习模型的PME。我们进一步考察Shapley值,以扩展PDP和PME的逻辑并评估变量重要性。 为了展示我们所采用的方法,我们将其应用于两次享乐主义房屋定价练习中。我们选择享乐主义住房问题,原因有以下几点。首先,房屋定价是信贷扩展决策的重要部分。目前,房屋评估通常由人类专家进行,但想象一个未来世界,其中部分评估工作将由人工智能完成并非难事。 1五家机构分别为美国货币监理署(OCC)、联邦储备委员会、联邦存款保险公司(FDIC)、消费者金融保护局(CFPB)以及国家信贷联盟管理局(NCUA)。征求信息和建议的请求(RFI)的标题为“关于金融机构使用人工智能(包括机器学习)的信息和评论请求”,更多详情可在此链接找到:86 FR 16837。 该过程涉及机器学习。其次,房价本身是经济活动的重要渠道,尤其是在商业周期期间(参见 Leamer 等人(2007年),Leamer(2015年),Glaeser 和 Sinai(2013年),或Piazzesi 和 Schneider(2016年)对这一领域的卓越概述)。理解这些渠道可以直接和间接地帮助政策实践者。最后,为房屋定价可能是最早应用机器学习方法的金融状况之一。我们当然是指最近邻回归:将一个观测值的预期值预测为最相似的 N 个观测值的平均数。2. 1.1 文献 本文为机器学习可解释性文献的广泛且快速增长做出了贡献。Breiman(2001年)对机器学习中的可解释性 versus 预测进行了介绍。Semenova、Rudin和Parr(2019年)以及Molnar(2021年)是两篇关于机器学习可解释性的现代概述,它们对该领域进行了广泛的调查。本文特别扩展了Friedman(2001年)中描述的局部可依赖性图(PDP)。3第三部分就Shapley值(Shapley,1953年)进行了类似的讨论,并针对模型解释的两个额外方面进行回应:特征包含的影响和特征的重要性。关于PDP和Shapley值的讨论表明,在线性模型语境中,它们与参数估计相当。 这篇论文与Joseph(2019)最为密切相关,其中作者使用任意模型的Shapley-Taylor分解构建了一个回归表。当前论文与Joseph(同上)的不同之处在于所考察的内容;当前论文直接考察部分依赖函数的斜率,以表征任意模型的非线性边际关系,以及包括部分依赖操作的Shapley值的扩展,而Joseph(同上)则采用Shapley-Taylor分解来总结模型特性。 本文也为机器学习在房屋定价文献方面的研究做出了贡献。机器学习模型已被广泛用于房屋定价模型,然而,这些研究要么侧重于机器学习模型的准确性(参见Limsombunchai,2004;McCluskey)。 等,(2013)或专注于对更简单类型机器学习模型的特定模型解释(参见,ˇ例如,Ceh 等人,2018;McMillen 和 Redfearn,2010)。本文研究基于效用的住宅定价,以进行一般推断并描述在微观级别住宅定价数据中发现的潜在非线性关系。 所采用的说明性效用房屋定价模型受Sirmans, Macpherson, 和 Zietz (2005)及Zietz, Zietz, 和 Sirmans (2008)中的元分析所启发,而所使用的数据在De Cock (2011)中进行了描述。 本文的其余部分组织如下:第2节概述了如何将PDP及其相应的PME构建为线性模型系数的一般化。第3节对Shapley值进行了类似的讨论。第4节将我们的结果应用于房屋价格指数化研究,第5节将分析扩展到由博伊西爱达荷州的COVID住房热潮驱动的偏好变化。第6节得出结论。 2 通过部分边际效应进行模型无关推理 构建统计模型通常有两个共同的目的,这些模型将左侧(目标)变量与右侧(输入)变量相关联。在机器学习的术语中,这是一个监督学习问题。 第一个目的是预测给定一个新的输入观察,预测相关的目标。这是一个常见的用例,提高预测性能是经常被引用的采用机器学习和人工智能模型代替传统模型的原因。4 第二个目的是推断而不是预测目标,重点在于通过检查目标与当模型拟合数据时所捕获的输入变量之间的关系来描述世界,以及描述那种关系的统计特性。例如,某个输入变量与目标之间存在的是正相关还是负相关?这种关系在统计上是否显著? 推理是经济学家在统计模型中的主要用例之一,统计学家和经济学家们广泛的历史研究为计量经济学中的推理建立了理论基础。在经济学文献中,缺乏机器学习和人工智能模型的推理工具,在领域中的应用采纳率缓慢(尽管正在迅速变化)。5在机器学习和 人工智能文献中,推断工具的缺乏在快速增长的解释性和可解释性文献中暴露出来。 幸运的是,对于AI/ML推理,存在着一个有希望的路径前进,这由两个观察结果驱动。首先,通过系数捕获的,在传统线性回归模型中代表目标和模型输入间边际关系的部分依赖关系,可以通过一种更普遍的方式来估算,这种方式适用于任何模型。我们在这篇论文中侧重的方法被弗里德曼(2001)描述为部分依赖函数或“部分依赖图”(PDP)。6正如以下章节所描述的,概率密度函数(PDP)的斜率恰好是传统线性回归中的系数。7这主要是因为弗里德曼(同上)构建了PDP,使其成为以下内容的泛化:在其他条件不变的情况下。关于入门统计学课程中回归系数所教授的推理。我们之所以将PDP的斜率称为部分边际效应(PME),是因为以下列出的原因。其次,如Efron和Hastie(2016)所述,bootstrap和相关方法可以提供一种简单但计算量大的方法来计算数据广泛函数的方差。我们采用bootstrap来寻找由PME捕获的边际关系中的方差。 当我们将PME应用于传统线性回归模型并使用自助法来获得方差时,我们复制了在标准回归表中获得的系数的传统点估计和方差。当应用于机器学习模型时,我们得到回归表的推广,这使我们能够对机器学习模型进行推断,类似于对传统计量经济模型的推断。 2.1 PME:一个直观的讨论 本节通过两个类比直观地描述了PME捕捉的内容,然后转向数学细节。一个关键洞察是,PME帮助经济学家理解拟合模型本身的性质。 对于第一个类比,假设我们有一个拟合的模型。我们可以将PME看作是关于以下实验结果分布的汇总统计量提供者: 进行观察并将结果输入到拟合模型中,以获得预测。 经济学中的模型与应用6正如我们将在后续内容中更详细地描述,存在多种方法来概括OLS系数所体现的边际关系。参见附录A。7见附录B,证明。 除了一个单一特征外,不要改变这个观察结果。例如,改变房屋的面积,但保持房间数量、地块大小等不变。模型输出变化了多少?用多个观察结果进行此操作,以获得这些效应的分布。这些实验的分布在这变量的域上的平均值是多少? 在这个意义上,PME正在传达有关适配模型会预测什么的信息,如果要求它预测一个只改变了一个特征的观察结果。通过这个过程,我们正在了解有关适配模型本身的信息:这些结果在感兴趣变量上的分布。 或者,我们可以将PME类比为在一个做出预测的模型上实施的一种类型现场实验。例如,在Bertrand和Mullainathan(2004)的研究中,作者将一些简历提交到招聘过程中,然后改变简历的单一特征(姓名)来检验结果(召回次数)的变化。PME本质上是在一个拟合的模型上实施这一实验。 如果这听起来像是多元回归系数的解释,那是因为确实如此。Friedman(2001)构建了PDPs来实施和推广这些方法。在其他条件不变的情况下。推理解释在大多数初等计量经济学课程中解释多元回归系数的方法。主要区别在于弗里德 曼(同上),以及几乎所有随后的机器学习和人工智能文献,都是基于关系的水平而非关系的斜率来讨论PDP的,而传统的多元回归系数则是捕捉关系的斜率。8附录B证明PME(PDP的斜率)等同于传统的多重回归系数。 2.2 PME:数学与多重回归系数 考虑来自《社会科学研究方法百科全书》中Abdi(2004)的一个典型多重回归系数描述: 8这可能是由于基于树的模型(弗里德曼(2001年)发明PDP来描述的)在其PDP中不具有平滑的斜率,与其他方法如支持向量机、深度神经网络或核岭回归(分别称为SVMs/SVRs、DNNs、KRRs)不同。对于树而言,查看PDP水平是自然的。然而,即使是基于树的模型,也可以检查斜率的近似,并提供与平滑方法类似的见解。 [回归系数. . .表示因变量增加多少,] (DV) 在一个独立变量(IV)增加一