解释机器学习模型的边际效应与夏普利值分解
引言
机器学习(ML)和人工智能(AI)方法常被视为“黑箱”。传统线性回归通过回归系数捕捉其边际关系,而本文提出了一种直接构造任何ML模型的边际效应的方法,即计算弗里德曼(Friedman, 2001)的部分依赖函数(Partial Dependence Function, PDP)的斜率,称为部分边际效应(Partial Marginal Effect, PME)。对于线性回归,PME直接复制回归系数;对于非线性ML模型,该方法以模型无关的方式扩展了回归系数的概念。我们进一步探讨了夏普利值来扩展PDP和PME的逻辑,并评估变量的重要性。
方法
本文通过两个住房定价案例研究展示了该方法的应用。选择住房定价问题的原因包括:住房定价对信贷决策至关重要,未来可能部分由机器学习完成;房屋价格是经济活动的重要渠道,特别是在商业周期中;以及住房定价可能是最早应用机器学习方法的金融应用场景之一。具体来说,我们使用最近邻回归预测观测值的期望值为其最相似观测值的平均值。
文献综述
本文为机器学习解释性的文献做出了贡献。Breiman (2001) 提供了关于解释性与预测性的对比介绍。Semenova, Rudin, and Parr (2019) 和 Molnar (2021) 提供了现代的ML解释性概述。本文特别扩展了Friedman (2001) 的部分依赖图(PDP),并讨论了PDP和夏普利值(Shapley, 1953)在参数估计中的等价性。此外,本文还参考了Joseph (2019) 的工作,后者构建了回归表,使用Shapley-Taylor分解来总结模型属性,而本文则直接分析PDP的斜率,以描述任意模型的非线性边际关系及其扩展的夏普利值。
实证分析
本文通过两个住房定价案例研究展示了PME和PDP的应用。我们采用的住房定价模型受到Sirmans, Macpherson, and Zietz (2005) 和 Zietz, Zietz, and Sirmans (2008) 元分析的启发,并使用了De Cock (2011) 描述的数据。结果显示,PME和PDP能够揭示ML模型发现的非线性关系,并允许与传统线性回归模型直接比较。
结论
本文提出了一种直接构造任意ML模型边际效应的方法,通过计算PDP的斜率,即PME。这种方法不仅适用于线性回归模型,也适用于非线性ML模型,从而提供了一种模型无关的解释性工具。通过住房定价案例研究,我们验证了PME和PDP的有效性,并进一步探讨了变量的重要性。