仅供机构投资者使用证券研究报告|量化研究报告 2022年12月20日 机器学习策略的可解释性分析 评级及分析师信息 证券分析师:王祥宇SACNO:S1120520080004证券分析师:杨国平SACNO:S1120520070002研究助理:周游邮箱:zhouyou2@hx168.com.cn 机器学习研究系列之五 投资要点: ►机器学习类量化策略效果较好但无法直观理解 在前期的报告中,我们构建了利用卷积神经网络进行自动化特 征抽取并通过全连接层输出分类结果的非线性择时模型,并在指数择时的场景下取得了良好的结果。但深度模型的预测过程往往被人看作是一个黑箱(Blackbox),本文将通过构建机器学习的可解释性框架从定量的角度解释机器学习策略的内在逻辑。 ►引入可解释性框架对机器学习策略进行可解释性分析,深入理解策略收益来源 机器学习模型的可解释性一直是学术界研究的重要方向,但模 型的效果和可解释性却难以权衡。例如,深度学习模型往往效果最为突出,但无法直观理解。本文介绍了当前已有的解释性框架及原理,并尝试使用SHAP框架对择时策略进行可解释性分析。 ►SHAP框架适用范围较广,能够解释特征输入如何影响预测值 SHAP框架的核心是计算特征的Shapley值,该值衡量了特征对 于预测结果的贡献。通过特征的Shapley值进行分析可以判断在一次或多次预测过程中输入特征的重要程度,从而得到因子对于资产收益率的非线性相关性关系,相比于因子的IC值,因子的Shapley值信息含量更高。 ►风险提示 模型基于对历史数据统计,仅作为投资参考。 正文目录 1.机器学习模型的可解释性3 1.1.可解释性的定义3 1.2.可解释性的重要性3 1.3.统计学习模型解释性较好4 1.4.机器学习模型的解释性框架5 2.卷积神经网络择时策略的可解释性分析8 2.1.择时策略设计思路8 2.2.择时策略的构建和评估10 2.3.基于SHAP框架的策略解释性分析15 3.总结17 4.风险提示18 图表目录 图1:可解释性方法分类维度6 图2:一个使用LIME方法进行解释的例子7 图3:第5次买入交易的特征重要性排名13 图4:第10次买入交易的特征重要性排名13 图5:第15次买入交易的特征重要性排名13 图6:第20次买入交易的特征重要性排名13 图7:择时策略累计收益14 图8:择时策略累计超额收益率14 图9:模型ROC曲线图14 图10:模型PR曲线图14 图11:SHAP全局特征解释图15 图12:SAR与CCI特征交互图16 图13:CMO与SIGNAL_MACD特征交互图16 图14:CMO与CCI特征交互图16 图15:SAR与SIGNAL_MACD特征交互图16 图16:特征重要性排名17 表1:技术指标及其含义9 表2:随机断开输入神经元比例对回测结果的影响10 表3:单个训练批次样本数对回测结果的影响11 表4:训练批次对回测结果的影响11 表5:优化器学习率对回测结果的影响11 表6:择时策略回测结果12 表7:技术指标的权重值16 1.机器学习模型的可解释性 在当前时间节点,机器学习模型的应用范围已经非常广泛。在金融、教育、医疗、交通、建筑等众多领域都展现了其强大的表示和学习能力。然而,机器学习模型决策过程的不透明性和日益增长的复杂性给实际应用带来了一定的安全性隐患和局限,让用户对模型的决策结果缺乏信任度。为了克服机器学习方法的局限性,有研究人员开始进行机器学习模型可解释的研究。本节,我们主要介绍可解释机器学习的基本理论,包含可解释性的定义、重要性、可解释的模型和可解释的机器学习方法。 1.1.可解释性的定义 可解释性(interpretability)是指以可理解的术语(understandableterms)向人类提供解释(explanations)的能力。 可理解的术语指的是构成解释的基本单元。对不同领域模型的解释需要建立在不同的领域知识上。 解释是指用某种语言来描述或注解机器学习的决策机制。理想情况下,应该用数学符号或者逻辑规则,这样的语言是最清晰。但实际上,因为可能需要一定的先验知识才能看懂这些解释语言,所以可解释性并不要求必须使用这样严谨的表示,只需要一些能够进行解释的关键元素。因此,这是可以用来对现有研究进行分类的重要角度。 GoogleBrain的BeenKim提出了一个模型可解释性的定义: argmaxEQ(E∣Model,Human,Data,Task) 其中Q是一个解释性的评价方程,E是实现可解释性的具体方法。整个过程就是让我们寻求这样一种解释方法:该方法使得给定特定的数据(Data)和针对于某种特定的任务(Task),特定经验的人群(Human)拥有对于特定的模型(Model)最大程度上的理解。 1.2.可解释性的重要性 机器学习作为人工智能技术的重要分支,已经广泛应用在包含金融等多个场景中,成为大数据与人工智能时代的“基础能力”。而随着机器学习发展和应用的深入,模型“可解释性”的问题也越来越被公众关注。2021年出台的《个人信息保护法》,要求自动化决策应当保证决策的透明度和结果公平、公正,不得在交易条件上实行不合理的差别待遇。通过自动化决策方式做出对个人权益有重大影响的决定,个人有权要求个人信息处理者予以说明。 机器学习模型通常会以可解释性为代价来换取更强大的预测能力,但有的时候,人们除了希望知道模型的预测结果,也想知道模型为什么会做出这种预测,特别是在与人类自身生命财产安全息息相关的领域,比如金融、医疗等,了解了缘由才能更确信结果的正确性,才能相信模型在部署后,会以合理的方式运行。因此,对机器学习模型进行深入剖析,解释其决策原理是必要的,佐以专家知识印证,达到对模型高可靠性的要求。 随着我国金融行业的国际化程度越来越高,金融业务越来越深入老百姓的日常生活,而监管政策也日趋审慎,监管标准日渐提高,因此,各方对常见人工智能 (ArtificalIntelligence,AI)黑盒模型的透明度、模型可解释性的需求变得极其迫切— —金融业务不仅需要AI提供准确的预测结果,更要打开“黑盒”,向人类展示出其中的数据要素、神经网络的推理逻辑和决策原因,让人类做出更准确的选择——这需要的正是具有可解释性的、能提供充分信息的有效决策辅助的AI系统。因此,如何实现黑盒模型的可解释、从而更好的平衡模型的性能和可解释性,成为金融行业能否广泛采用机器学习技术的重要考量。 在投资策略设计过程中,模型的可解释性尤为关键。机器学习量化策略相比于传统的线性多因子模型其非线性能力使得策略在回测过程中的良好表现也可能意味着数据挖掘/过拟合。虽然在理论上,我们有比较多的手段来减少过拟合,比如正则化,交叉验证。在深度模型中,我们可以使用Dropout、EarlyStopping等方法来减少过拟合。但是如果我们无法对模型进行解释,那么我们对于策略的预期表现就很难有一个先验估计,只能通过风控系统来控制策略的预期风险。因此,当前线性模型仍然是量化策略的主流。 传统的统计学习模型往往解释性较好。下一节中,我们将介绍统计学习模型的可解释性。 1.3.统计学习模型解释性较好 实现可解释性的最简单方法是只使用创建可解释模型的算法子集。线性回归、逻辑回归和决策树是常用的可解释模型。虽然这些方法本身具有可解释性,但由于这些方法学习的关系有限,在预测方面受到了一些限制,因此,还需要更强大的模型来对任务进行预测。但这些可解释的模型,会为一些可解释的机器学习方法提供帮助。 1.3.1.线性回归模型(LinearRegression) 线性回归模型将目标预测为特征输入的加权和,而所学习关系的线性使解释变得容易。统计学家、计算机科学家以及其他解决定量问题的人长期以来都使用线性回归模型。 线性模型可用于建模回归目标y对某些特征x的依赖性。由于学到的关系是线性的,实例的预测结果�=𝛽0+𝛽1𝑥1+...+𝛽�𝑥�+�是其p个特征的加权和。参数𝛽j表示要学习的特征权重或系数,其中第一项𝛽0称为截距,不与特征相乘。�表示误差,即预测结果与真实结果之间的差。假设这些误差服从独立的正态分布。我们可以通过极大似然估计得到参数的OLS估计为(XTX)1XTy。 1.3.2.逻辑回归模型(LogisticRegression) 逻辑回归模型建模有两个可能结果的概率分类问题,它是线性回归模型针对分类问题的的扩展。分类的解决方案是逻辑回归。逻辑回归不是拟合直线或超平面,而是使用逻辑函数将线性方程的输出挤压到0和1之间。逻辑函数定义为 𝑙𝑜𝑔𝑖𝑠𝑡𝑖�(𝜂)=1。由于逻辑回归的结果是0到1之间的概率,逻辑回归中权 1+𝑒𝑥𝑝(−𝑦) 重的解释不同于线性回归。权重不再线性地影响概率,加权和由逻辑函数转换为概率。因此,需要为解释重新构造方程,以便只有线性项在公式的右边。通过变换得到公 式𝑃(𝑦=1)=𝑜𝑑𝑑�=𝑒𝑥�(� +��+...+�� )进而得到𝑜𝑑𝑑𝑠𝑥�+1 =𝑒𝑥𝑝(�(�+ 1−𝑃(𝑦−1) 011 �� 𝑜𝑑𝑑� �� 1)+...—𝛽�𝑥𝑗)=𝑒𝑥𝑝(𝛽�)。这样得到了一个简单的特征权重𝑒𝑥𝑝()。可以解释为:一个特征改变1个单位将会使几率比(oddsratio)改变𝑒𝑥𝑝(𝛽�),也可以解释为:特征𝑥�改变1个单位会增加对数几率比(logoddsratio)相应权重的值。 1.3.3.决策树模型(DecisionTree) 线性回归和逻辑回归在特征与结果之间的关系为非线性或特征交互的情况下会失败。因此有了决策树(DecisionTree)。基于树的模型根据特征中的某些截断值多次数据分割(Split)。通过分割,可以创建数据集的不同子集,每个实例都属于一个子集。最后的子集称为终端(Terminal)或叶节点(LeafNodes),中间的子集称为内部节点(InternalNodes)或分裂节点(SplitNodes)。为了预测每个叶节点的结果,使用该节点中训练数据的平均结果。树模型可用于分类和回归。 解释很简单:从根节点开始,转到下一个节点,而边表明要查看的子集。一旦到达叶节点,该节点将表明预测的结果。所有边通过“AND”连接。解释可以为:如果特征x比阈值c[小/大]AND……,那么预测结果就是节点y中实例的平均值。 1.3.4.统计学习模型的可解释性 还有一些可解释的模型如决策规则、RuleFit、朴素贝叶斯分类器、k-最近邻等。上述这些统计模型的解释性较好主要的原因是这些模型的输入特征与预测值通过 确定的函数映射Yf(,X)得到,通过在函数簇[f|f,R],R为多维实数空间,中选取特定的函数映射(选择特定的,通过计算argmaxU(,X),其中U 为可知效用函数,也对应了模型结构),我们可以预期特征对于预测结果的影响。但在深度模型中,f是通过误差反向传播,并通过梯度下降得到的局部最优解,深度模型的U为不可知效用函数。我们无法通过影响效用函数来影响模型的结构和输出结果。但这并不意味着,我们无法对深度模型进行解释,我们仍然可以通过描述性统计的方法对深度模型的输入特征对于结果的影响进行归纳描述,从而间接地解释特定结构深度模型的特性。在下一节中,本文将介绍现有的机器学习模型解释框架。 1.4.机器学习模型的解释性框架 1.4.1.可解释性方法分类 分类机器学习可解释性的方法有很多,大致从三个维度分类可解释性方法: 第一个维度有两类方法:主动解释(activeinterpretability)和被动解释(passiveinterpretability),这个维度根据可解释性方法是否需要改变网络架构或优化过程来划分现有的方法。 被动解释过程基于训练好的网络,待解释的模型权重都已从训练集学习。之后,被动解释方法试图提取逻辑