金融与经济讨论系列 联邦储备委员会,华盛顿特区 ISSN19362854Print ISSN27673898在线 通过自举部分边际效应和Shapley值解释机器学习 托马斯R库克,扎克D莫迪格,内森M帕尔默 2024075 请引用本文为: CookThomasRZachDModigandNathanMPalmer2024“ExplainingMachineLearningPerformancewith通过自举部分边际效应和Shapley值进行学习,“金融与经济” 2024075华盛顿:美联储理事会 系统,httpsdoiorg1017016FEDS2024075 注意:金融与经济讨论系列(FEDS)中的员工工作论文是供讨论和批评意见的初步材料。所提出的研究分析和结论是作者的观点,并不代表研究团队其他成员或理事会成员的共识。出版物中对于金融与经济讨论系列(除致谢外)的引用,应与作者协商,以保护这些论文的试探性特征。 通过自举部分边际效应和Shapley值来解释机器学习 托马斯R库克扎克莫迪格纳森M帕尔默 2024年8月6日 摘要 机器学习和人工智能常被描述为“黑盒”。传统线性回归通过回归系数所捕捉边际关系来解释。我们表明,任何机器学习模型相同边际关系可以通过计算部分依赖函数斜率来严格描述,我们称之为部分边际效应(PME)。我们证明,OLSPME与OLS回归系数在分析上是等价。自助法提供了PME点估计标准误差和置信区间。我们将PME应用于一个享乐主义房价定价示例,并证明了神经网络、支持向量机、随机森林和梯度提升模型PME揭示了机器学习模型发现非线性关系,并允许直接比较这些模型与传统线性回归。最后,我们将PME扩展到Shapley值分解,并探讨如何利用它进一步解释模型输出。JEL分类:C14,C18,C15,C45,C52 1引言 机器学习(ML)和人工智能(AI)方法通常被视为黑盒:它们可能会捕捉到数据中有用交互和非线性,但它们形状和 联邦储备银行堪萨斯城分行邮箱:thomascookkcfrborg 本文所表达观点为作者个人观点,并不一定反映美国联邦储备委员会、堪萨斯城联邦储备银行或联邦储备系统观点。 美联储董事会电子邮件:nathanmpalmerfrbgov 关系性质难以确定。在金融和经济领域,使用机器学习模型需求日益增长,其用途从学术研究到信用审批等各个方面。同时,机器学习可解释性正日益受到金融监管机构关注。2021年,五家美国金融机构共同发布了一项关于金融机构使用机器学习和人工智能 信息请求,其中包含一个专门讨论机器学习可解释性子部分。1同样,Brainard(2021)指出,可解释性缺乏是面临使用机器学习方法为金融服务问题之一,并概述了这些困难是如何表现出来。 传统回模型通常通过其边际效应来解释,无论是通过点估计还是这些点估计不确定性。在简单线性模型中,边际效应体现在系数参数中,每个系数点估计和方差通常会在回表中显示。相比之下,机器学习模型中深度模型参数与模型边际关系之间没有简单关联。例如,一个深度神经网络可能有成千上万个与任何单个边际关系相关参数。 本文提出了一种解决方案:直构建任何机器学习模型边际效应,作为弗里德曼(2001年)局部依赖函数(也称为局部依赖图或PDP)斜率。在机器学习文献中,PDP传统上以水平形式展示,并且仅计算PDP点估计值。然而,简单证明,当应用于线性回时,PDP斜率直复制回系数,而自助法产生标准误差与OLS解析结果相当。当应用于非线性机器学习模型时,这种方法以模型无关方式推广了回系数概念。我们将PDP斜率称为部分边际效应,或PME。这种方法许直比较线性模型回系数和非线性机器学习模型PME。我们进一步考察Shapley值,以扩展PDP和PME逻辑并评估变量重要性。 为了展示我们所采用方法,我们将其应用于两次享乐主义房屋定价练习中。我们选择享乐主义住房问题,原因有以下几点。首先,房屋定价是信贷扩展决策重要部分。目前,房屋评估通常由人类专家进行,但想象一个未来世界,其中部分评估工作将由人工智能完成并非难事。 1五家机构分别为美国货币监理署(OCC)、联邦储备委员会、联邦存款保险公司(FDIC)、费者金融保护局(CFPB)以及国家信贷联盟管理局(NCUA)。征求信息和建议请求(RFI)标题为“关于金融机构使用人工智能(包括机器学习)信息和评论请求”,更多详情可在此链找到:86FR16837。 该过程涉及机器学习。其次,房价本身是经济活动重要渠道,尤其是在商业周期期间(参见Leamer等人(2007年),Leamer(2015年),Glaeser和Sinai(2013年),或Piazzesi和Schneider(2016年)对这一领域卓越概述)。理解这些渠道可以直和间 地帮助政策实践者。最后,为房屋定价可能是最早应用机器学习方法金融状况之一。我们当然是指最近邻回:将一个观测值预期值预测为最相似N个观测值平均数 。2 11文献 本文为机器学习可解释性文献广泛且快速增长做出了贡献。Breiman(2001年)对机器学习中可解释性versus预测进行了介绍。Semenova、Rudin和Parr(2019年)以及Molnar(2021年)是两篇关于机器学习可解释性现代概述,它们对该领域进行了广泛调查。本文特别扩展了Friedman(2001年)中描述局部可依赖性图(PDP)。3第三部分就Shapley值(Shapley,1953年)进行了类似讨论,并针对模型解释两个额外方面进行回应:特征包含影响和特征重要性。关于PDP和Shapley值讨论表明,在线性模型语境中,它们与参数估计相当。 这篇论文与Joseph(2019)最为密切相关,其中作者使用任意模型ShapleyTaylor分解构建了一个回表。当前论文与Joseph(同上)不同之处在于所考察内容;当前论文直考察部分依赖函数斜率,以表征任意模型非线性边际关系,以及包括部分依赖操作Shapley值扩展,而Joseph(同上)则采用ShapleyTaylor分解来总结模型特性。 本文也为机器学习在房屋定价文献方面研究做出了贡献。机器学习模型已被广泛用于房屋定价模型,然而,这些研究要么侧重于机器学习模型准确性(参见Limsombunchai,2004;McCluskey)。 2为了完整性,我们将我们主要模型近邻回PMEs包含在补充附录中。 3PDP与Hanmer和OzanKalkan2013所述“观察值”方法密切相关。相关方法是Goldstein等人(2015 )中开发ICE图,这些图是第22节和方程3中讨论边际分布可视化。Apley和Zhu(2020)推导出PDP函数替代方法。我们在线附录A中讨论了他们方法与PMEs之间关系。 等,(2013)或专注于对更简单类型机器学习模型特定模型解释(参见, 例如,Ceh等人,2018;McMillen和Redfearn,2010)。本文研究基于效用住宅定价,以进行一般推断并描述在微观级别住宅定价数据中发现潜在非线性关系。 所采用说明性效用房屋定价模型受SirmansMacpherson和Zietz2005及ZietzZietz 和Sirmans2008中元分析所启发,而所使用数据在DeCock2011中进行了描述 。 本文其余部分组织如下:第2节概述了如何将PDP及其相应PME构为线性模型系数 一般化。第3节对Shapley值进行了类似讨论。第4节将我们结果应用于房屋价格指数化研究,第5节将分析扩展到由博伊西爱达荷州COVID住房热潮驱动偏好变化。第6节得出结论。 2通过部分边际效应进行模型无关推理 构统计模型通常有两个共同目,这些模型将左侧(目标)变量与右侧(输入)变量相关联。在机器学习术语中,这是一个监督学习问题。 第一个目是预测给定一个新输入观察,预测相关目标。这是一个常见用例,提高预测性能是经常被引用采用机器学习和人工智能模型代替传统模型原因。4 第二个目是推断而不是预测目标,重点在于通过检查目标与当模型拟合数据时所捕获输入变量之间关系来描述世界,以及描述那种关系统计特性。例如,某个输入变量与目标之间存在是正相关还是负相关?这种关系在统计上是否显著? 推理是经济学家在统计模型中主要用例之一,统计学家和经济学家们广泛历史研究为计量经济学中推理立了理论基础。在经济学文献中,缺乏机器学习和人工智能模型推理工具,在领域中应用采纳率缓慢(尽管正在迅速变化)。5在机器学习和 4查看James等人(2013)第2章,以讨论机器学习及传统模型中预测和推理,以及机器学习模型在预测准确性方面相对于传统模型改进。 5尽管参见Athey和Imbens(2019)以及Coulombe(2021b)关于某些机器学习推理例子。 人工智能文献中,推断工具缺乏在快速增长解释性和可解释性文献中暴露出来。 幸运是,对于AIML推理,存在着一个有希望路径前进,这由两个观察结果驱动。首先,通过系数捕获,在传统线性回模型中代表目标和模型输入间边际关系部分依赖关系,可以通过一种更普遍方式来估算,这种方式适用于任何模型。我们在这篇论文中侧重方法被弗里德曼(2001)描述为部分依赖函数或“部分依赖图”(PDP)。6正如 以下章节所描述,概率密度函数(PDP)斜率恰好是传统线性回中系数。7这主要是因为弗里德曼(同上)构了PDP,使其成为以下内容泛化:在其他条件不变 情况下。关于入门统计学课程中回系数所教授推理。我们之所以将PDP斜率称为部分边际效应(PME),是因为以下列出原因。其次,如Efron和Hastie(2016)所述,bootstrap和相关方法可以提供一种简单但计算量大方法来计算数据广泛函数方差。我们采用bootstrap来寻找由PME捕获边际关系中方差。 当我们将PME应用于传统线性回模型并使用自助法来获得方差时,我们复制了在标准回表中获得系数传统点估计和方差。当应用于机器学习模型时,我们得到回表推广,这使我们能够对机器学习模型进行推断,类似于对传统计量经济模型推断。 21PME:一个直观讨论 本节通过两个类比直观地描述了PME捕捉内容,然后转向数学细节。一个关键洞察是 ,PME帮助经济学家理解拟合模型本身性质。 对于第一个类比,假设我们有一个拟合模型。我们可以将PME看作是关于以下实验结果分布汇总统计量提供者: 进行观察并将结果输入到拟合模型中,以获得预测。 经济学中模型与应用 6正如我们将在后续内容中更详细地描述,存在多种方法来概括OLS系数所体现边际关系。参见附录A。 7见附录B,证明。 除了一个单一特征外,不要改变这个观察结果。例如,改变房屋面积,但保持房间数量、地块大小等不变。模型输出变化了多少?用多个观察结果进行此操作,以获得这些效应分布。这些实验分布在这变量域上平均值是多少? 在这个意义上,PME正在传达有关适配模型会预测什么信息,如果要求它预测一个只改变了一个特征观察结果。通过这个过程,我们正在了解有关适配模型本身信息:这些结果在感兴趣变量上分布。 或者,我们可以将PME类比为在一个做出预测模型上实施一种类型现场实验。例如 ,在Bertrand和Mullainathan(2004)研究中,作者将一些简历提交到招聘过程中,然后改变简历单一特征(姓名)来检验结果(召回次数)变化。PME本质上是在一个拟合模型上实施这一实验。 如果这听起来像是多元回系数解释,那是因为确实如此。Friedman(2001)构了PDPs来实施和推广这些方法。在其他条件不变情况下。 推理解释在大多数初等计量经济学课程中解释多元回系数方法。主要区别在于弗里德曼(同上),以及几乎所有随后机器学习和人工智能文献,都是基于关系水平而非关系斜率来讨论PDP,而传统多元回系数则是捕捉关系斜率。8附录B证明PME (PDP斜率)等同于传统多重回系数。 22PME:数学与多重回系数 考虑来自《社会科学研究方法百科全书》中Abdi(2004)一个