您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国金证券]:Alpha掘金系列之十三:AI选股模型特征筛选与处理:SHAP、中性化与另类特征 - 发现报告
当前位置:首页/其他报告/报告详情/

Alpha掘金系列之十三:AI选股模型特征筛选与处理:SHAP、中性化与另类特征

2024-09-09高智威、王小康国金证券G***
Alpha掘金系列之十三:AI选股模型特征筛选与处理:SHAP、中性化与另类特征

模型的特征工程研究 随着机器学习模型在量化投资领域的广泛应用,我们在此前的《Alpha掘金系列之九:基于多目标、多模型的机器学习指数增强策略》、《Alpha掘金系列之十:机器学习全流程重构》和《ALPHA掘金系列之十二:排序学习对GRU选股模型的增强》中,分别深入探讨了结合树模型和神经网络模型的机器学习量化选股架构、模型训练中的标签选择等细节问题和新的排序学习框架的有效性。然而,对模型输入端因子的特征工程尚缺乏系统的研究。本报告旨在填补这一空白,探索几个关键问题:特征选择的必要性、宏观数据与高频数据等的加入是否有益,因子与标签中性化处理的效果。 通过对这些问题的深入探讨和实证分析,我们得出了一系列重要结论:首先,基于SHAP(ShapleyAdditiveExplanations)的特征选择方法显著降低了模型训练成本,并在一定程度上提升了GRU模型的精度,同时,SHAP提供的可视化工具能够直观地展示各个因子的作用,为进一步优化模型提供了有价值的参考。相比之下,尽管基于简单统计方法的特征选择方法也取得了一定效果,但深度学习特征选择模块STG的表现则不太理想。其次,关于另类因子的引入,加入宏观经济数据和BARRA因子收益率等反映整体市场的另类因子,虽然能够在一定程度上提升LightGBM模型的超额收益,但总体而言缺乏显著的正向作用。引入高频因子方面,在小微盘股上显示出较高的有效性,而在大中盘股上的应用方法仍需进一步探索。在因子与标签中性化处理方面,将中性化处理后的标签喂入LightGBM模型并与原模型集成,能够显著优化模型的表现,然而,将因子中性化作为模型输入的整体表现则不尽如人意。 改进后因子与策略效果 最终,我们在保持原框架一致性的基础上,采用经过中性化标签合成改进的GBDT模型和经过SHAP特征选择改进的NN模型,分别在不同成分股上进行测试,取得了显著的样本外效果。具体来说,在沪深300上,因子IC均值为11.91%,多头年化超额收益达22.92%,而多头超额最大回撤为6.56%。在中证500上,因子IC均值为11.58%,多头年化超额收益率为12.35%。特别是在中证1000成分股上,因子表现尤为突出,IC均值达到15.42%,多头年化超额收益率为25.42%,多头超额最大回撤仅为4.42%。综合这些结果,我们结合实际交易情况,构建了基于各宽基指数的指数增强策略。其中,沪深300指数增强策略的年化超额收益达到15.83%,超额最大回撤为3.18%;中证500指数增强策略的年化超额收益为18.23%,超额最大回撤为8.21%;而中证1000指数增强策略的年化超额收益则高达32.24%,超额最大回撤为3.88%。这些结果表明,我们的方法在不同市场条件下均取得了显著的超额收益和较低的回撤风险。 风险提示 1、以上结果通过历史数据统计、建模和测算完成,在政策、市场环境发生变化时模型存在时效的风险。 2、策略通过一定的假设通过历史数据回测得到,当交易成本提高或其他条件改变时,可能导致策略收益下降甚至出现亏损。 内容目录 一、为什么需要特征工程?5 二、特征选择方法介绍5 2.1基础统计方法5 2.2SHapleyAdditiveexPlanations6 2.3STochasticGates(STG)6 三、特征选择方法效果7 3.1基础统计方法7 3.2SHAP方法8 3.3STG方法与整体比较10 3.4滚动训练的必要性讨论12 四、因子与标签中性化效果12 五、加入另类因子的效果13 5.1宏观指标等截面不变的因子13 5.2分钟频量价数据计算的高频因子15 六、特征工程优化的GBDT+NN指数增强策略17 6.1因子测试结果18 6.2特征工程优化的GBDT+NN的指数增强策略20 总结25 风险提示25 图表目录 图表1:SHAP示意图6 图表2:STG模型示意图7 图表3:滚动训练数据划分7 图表4:基础统计方法各项指标对比8 图表5:基础统计方法多空组合净值8 图表6:基础统计方法分位数组合年化超额收益8 图表7:基于SHAP方法因子筛选各项指标对比9 图表8:基于SHAP方法多空组合净值9 图表9:基于SHAP方法分位数组合年化超额收益9 图表10:SHAP对特定样本的解释10 图表11:SHAP对全部样本集的解释10 图表12:SHAP对部分样本的解释10 图表13:STG的特征选择层门控信息11 图表14:几种特征选择方法各项指标对比11 图表15:几种特征选择方法多空净值曲线11 图表16:滚动训练中选择因子的变化情况12 图表17:GRU输入数据中性化表现13 图表18:LightGBM输入数据中性化表现13 图表19:各类另类因子描述14 图表20:另类因子加入后LightGBM的表现14 图表21:另类因子多空组合净值14 图表22:另类因子分位数组合年化超额收益14 图表23:国金金工基础高频因子15 图表24:沪深300上高频因子表现15 图表25:沪深300上高频因子多空组合净值16 图表26:沪深300上高频因子分位数组合年化超额收益16 图表27:中证500上高频因子表现16 图表28:中证500上高频因子多空组合净值16 图表29:中证500上高频因子分位数组合年化超额收益16 图表30:中证1000上高频因子表现17 图表31:中证1000上高频因子多空组合净值17 图表32:中证1000上高频因子分位数组合年化超额收益17 图表33:特征工程优化的GBDT+NN模型结构18 图表34:特征工程优化的GBDT+NN因子在沪深300成分股的各项指标18 图表35:GBDT+NN+FE在300上多头超额净值曲线19 图表36:GBDT+NN+FE在300上多空净值曲线19 图表37:特征工程优化的GBDT+NN因子在中证500成分股的各项指标19 图表38:GBDT+NN+FE在500上多头超额净值曲线19 图表39:GBDT+NN+FE在500上多空净值曲线19 图表40:特征工程优化的GBDT+NN因子在中证1000成分股的各项指标20 图表41:GBDT+NN+FE在1000上多头超额净值曲线20 图表42:GBDT+NN+FE在1000上多空净值曲线20 图表43:特征工程优化的GBDT+NN沪深300指数增强策略指标21 图表44:GBDT+NN+FE在300上指增策略净值曲线21 图表45:GBDT+NN+FE在300上指增策略超额净值曲线21 图表46:特征工程优化的GBDT+NN沪深300指数增强策略分年度收益21 图表47:特征工程优化的GBDT+NN沪深300指数增强策略分年度收益数值22 图表48:特征工程优化的GBDT+NN中证500指数增强策略指标22 图表49:GBDT+NN+FE在500上指增策略净值曲线22 图表50:GBDT+NN+FE在500上指增策略超额净值曲线22 图表51:特征工程优化的GBDT+NN中证500指数增强策略分年度收益23 图表52:特征工程优化的GBDT+NN中证500指数增强策略分年度收益数值23 图表53:特征工程优化的GBDT+NN中证1000指数增强策略指标23 图表54:GBDT+NN+FE在1000上指增策略净值曲线24 图表55:GBDT+NN+FE在1000上指增策略超额净值曲线24 图表56:特征工程优化的GBDT+NN中证1000指数增强策略分年度收益24 图表57:特征工程优化的GBDT+NN中证1000指数增强策略分年度收益数值24 一、为什么需要特征工程? 在前期的研究报告中,我们使用了梯度提升树(GBDT)和神经网络(NN)两大类模型构造机器学习选股模型,并在A股各宽基指数成分股上均取得了不错的预测效果。随后,我们对模型训练中的各类细节问题展开了深入讨论和充分的对比验证,最终得出了针对量化选股领域更优的训练设置。然而,在与客户交流的过程中,我们发现客户普遍对以下问题感到关心:各因子是否都有效,将所有因子输入模型是否能够得到最优的表现,以及因子本身是否最适合作为模型的输入。这一类模型输入端因子处理的问题,正是机器学习领域特征工程研究问题的一个子集。对特征进行筛选、加入新的另类特征以及对特征做一些精心设计的预处理等特征工程方法,旨在提高模型对特征信息的利用率,增强模型的表现。 具体来说,进行特征工程的主要原因有如下几个: 提升模型性能:在二级市场投资中,资产价格的变化往往受到多种因素的影响,包括宏观经济指标、公司财务状况、市场情绪等。这些因素之间可能存在非线性关系和交互作用。通过特征工程,投资者可以构造新的特征,如经济周期调整后的财务比率、不同资产间的交互项等,从而捕捉这些复杂关系,提升预测资产价格走势的模型性能。 降低模型复杂性:金融市场中常常需要处理高维数据,如多只股票的价格、多个经济指标等。高维数据不仅增加模型的计算复杂性,还可能导致过拟合问题。通过特征选择或降维技术(如主成分分析PCA),可以筛选出最具信息量的特征,减少特征数量,简化模型。例如,在多因子模型中,选择最具解释力的几个因子进行投资组合构建。 提高模型解释性:特征工程通过将原始数据转换为更具解释性的特征,如使用财务比率(如市盈率PE、净资产收益率ROE)、技术指标(如移动平均线、相对强弱指数RSI)和交互特征,可以帮助投资者更直观地理解模型的预测依据。这种转换使得复杂的数据关系以更易于解读的形式呈现,揭示隐藏的市场模式和趋势,从而提升模型的透明度和可解释性,有助于投资决策的合理性和交流的顺畅。 在本报告中,我们将对AI选股模型中的输入因子进行详尽的特征工程分析,主要涵盖三个方面:一是因子的筛选,即如何有效地挑选适合的因子集以喂入模型;二是因子的处理,主要涉及各类因子和标签在输入时的中性化操作;三是另类因子的加入,包括宏观经济数据、BARRA风格因子收益率及高频因子等。在对各类改进方法与基准模型进行比较之后,我们将有效的改进方法融合到成熟的GBDT+NN机器学习选股框架中,形成特征工程优化的GBDT+NN增强策略。相较于前期报告中的增强策略,该策略在表现上取得了一定的进步。 二、特征选择方法介绍 直观上,通过针对性地选择因子,可以获得不亚于全部因子输入模型的结果,因为一个最简单的选择策略就是将所有因子选出来。因此,对大量因子进行特征选择再输入模型不失为改进量化选股模型的一条可行思路。我们将特征选择方法分为三类:基础统计方法、模型解释性方法(以SHAP为例)与深度学习模块(以STG为例),分别进行介绍,并在下一章进行效果的实验检验。 2.1基础统计方法 去掉重复值高的特征:这种方法的主要思想是如果一个特征的值大部分都是重复的 (即变化很小或者没有变化),那么这个特征对于模型的训练可能帮助不大。这种情况下,我们可以直接删除这个特征。这种方法的主要优点是简单易行。 去掉相关性低的变量:这种方法是基于特征与目标变量之间的相关性来选择特征的。如果一个特征与目标变量的相关性很低,那么这个特征可能对模型的预测帮助不大,可以被删除。 基于IV值的特征选择:IV值(InformationValue)是衡量特征对目标变量预测能力的一种指标。IV值越大,说明这个特征对于目标变量的预测帮助越大。这种方法的优点是可以量化特征的重要性,但是计算复杂度较高。 基于互信息特征选择:互信息可以衡量两个变量之间的依赖程度,如果特征与目标变量的互信息值高,那么这个特征对于预测目标变量可能非常有用。这种方法的优点是可以捕捉到特征与目标变量之间的非线性关系,但是计算复杂度较高。 基于卡方检验特征选择:卡方检验主要用于测试特征与目标变量之间的独立性。卡方值越大,说明特征与目标变量越不独立,这个特征可能对于预测目标变量非常有用。 适用于分类问题中。 基于树模型的特征选择:树模型(如决策树、随机森林等)可以计算出每个特征的重要性,然后根据特征的重要性来选择特征。这种方法的优点是可以处理非线性