传统AI模型在中证A500上效果欠佳 中证A500指数自问世以来,吸引了大量关注,赢得了广泛的市场认可。在此背景下,如何从中获取alpha收益成为了投资者的重要课题。通过之前的研究,我们对中证A500上风格因子的表现进行了深入分析,并设计了表现优异的增强策略。本报告进一步应用机器学习技术,特别是GRU和LightGBM模型,力求在提升策略收益的同时降低跟踪误差。 GRU模型在中证A500指数上的优化探索 在研究时序神经网络模型时,普遍的观点是需要大规模的样本数据来准确捕捉市场规律。因此,即便聚焦于特定股票领域,通常也倾向于在整个A股市场中进行训练,从而获得优于单一领域的效果。本章验证了这一结论,并发现引入LayerNorm等归一化方法改进训练后的GRU模型能显著提升表现。此外,采用迁移学习策略,将全A训练的模型微调于中证A500,进一步优化了在较小数据集下的模型适应性和预测能力。 LightGBM模型在A500指数上的优化探索 在考察LightGBM模型的表现时,我们综合探讨了几个关键因素:首先,固定训练比滚动训练提供了更好的结果,这可能与训练集的分布选取有关;其次,增量信息的整合,讨论将Alpha158和GJQuant作为输入,对模型效果的影响;最后,从分域训练和特征筛选来看,不进行因子筛选反而能在因子质量较高的情况下提升模型的整体表现,且全A股训练的效果普遍优于中证A500训练。 中证A500机器学习指数增强策略 最终,我们将GRU和LightGBM得到的因子进行合成,在中证A500成分股上进行测试,回测期效果良好。具体来说,因子IC均值为10.23%,多头年化超额收益达14.70%,而多头超额最大回撤为7.47%。我们结合实际交易情况,构建了基于中证A500指数的指数增强策略,该策略年化超额收益达到13.06%,跟踪误差为5.47%,超额最大回撤为6.76%。 风险提示 1、以上结果通过历史数据统计、建模和测算完成,在政策、市场环境发生变化时模型存在时效的风险。 2、策略通过一定的假设通过历史数据回测得到,当交易成本提高或其他条件改变时,可能导致策略收益下降甚至出现亏损。 内容目录 一、传统AI模型在中证A500上效果欠佳4 二、GRU模型在中证A500指数上的优化探索4 2.1成分股训练:效果有限4 2.2归一化模块:增强模型表现5 2.3迁移学习:全A训练与中证A500微调8 三、LightGBM模型在A500指数上的优化探索9 3.1滚动训练的影响9 3.2增量信息的影响10 3.3分域训练与特征筛选的作用11 四、中证A500机器学习指数增强策略12 4.1GRU与LightGBM因子合成12 4.2中证A500机器学习指数增强策略13 总结14 风险提示15 图表目录 图表1:主要数据集与对应描述4 图表2:全A与中证A500成分股训练统计数据5 图表3:全A与中证A500成分股训练多空组合净值5 图表4:全A与中证A500成分股训练分位数组合年化超额收益5 图表5:RNN模型中LayerNorm相较于BatchNorm的优点6 图表6:引入归一化改进后的GRU模型架构6 图表7:引入归一化改进后GRU模型全A统计数据6 图表8:引入归一化改进后GRU模型全A多空组合净值7 图表9:引入归一化改进后GRU模型全A分位数组合年化超额收益7 图表10:引入归一化改进后GRU模型中证A500统计数据7 图表11:引入归一化改进后GRU模型中证A500多空组合净值7 图表12:引入归一化改进后GRU模型中证A500分位数组合年化超额收益7 图表13:迁移学习思想示意图8 图表14:GRU模型微调架构8 图表15:微调GRU模型统计数据9 图表16:微调GRU模型多空组合净值9 图表17:微调GRU模型分位数组合年化超额收益9 图表18:滚动训练与非滚动训练LightGBM统计数据10 图表19:增量信息对LightGBM的影响10 图表20:LightGBM分域训练与特征筛选统计数据11 图表21:LightGBM模型多空组合净值11 图表22:LightGBM模型分位数组合年化超额收益11 图表23:因子相关性分析12 图表24:中证A500增强因子统计数据12 图表25:中证A500增强因子多头组合净值12 图表26:中证A500增强因子多空组合净值12 图表27:中证A500增强因子分位数组合年化收益率13 图表28:中证A500增强因子策略指标13 图表29:中证A500增强因子策略净值曲线14 图表30:中证A500增强因子策略超额净值曲线14 图表31:中证A500增强因子策略分年度收益14 一、传统AI模型在中证A500上效果欠佳 中证A500指数自发布以来便受到市场的广泛关注,并获得了机构和个人投资者的高度评价。在这种背景下,如何在把握指数行情的同时实现Alpha收益,成为投资者关注的焦点。在此前的报告《量化漫谈系列之十一:中证A500指数有效因子分析与增强策略》中,我们深入分析了中证A500指数的大类风格因子表现,并基于表现优异的因子设计和构建了增强策略,该策略在回测期间表现优异。本文将进一步运用机器学习模型,力求实现更高的超额收益和更低的跟踪误差。 在之前的系列报告中,包括《ALPHA掘金系列之九:基于多目标、多模型的机器学习指数增强策略》、《ALPHA掘金系列之十:细节对比与测试:机器学习全流程重构》和《ALPHA掘金系列之十三:AI选股模型特征筛选与处理:SHAP、中性化与另类特征》,我们深入探讨了多种神经网络(NeuralNetworks,NN)与多种梯度提升决策树(GradientBoostingDecisionTree,GBDT)集成的模型架构,以及在模型训练中涉及的各种输入输出数据和细节问题。这些模型在样本外的跟踪测试中也表现出色。 不过在更深入的研究和与客户的交流过程中,我们发现一个普遍的共识:在神经网络模型中,GRU模型表现得稳定且出色;而在梯度提升决策树模型中,LightGBM获得了较高的认可。此外,XGBoost和CatBoost等模型与LightGBM所学习到的因子之间也显示出很高的相关性。因此,在权衡模型性能与构建时间成本后,本报告将专注于中证A500股票域,对GRU模型和LightGBM模型进行深入且细致的探索。 GRU和LightGBM这一类机器学习选股模型都是基于训练数据驱动的,主要使用量价数据及其构造的因子。但是量价因子可能存在忽略市场情绪与噪音较大的问题,因此我们也考虑基本面因子。模型构建主要涉及如下三个数据集,包括了原始日线量价数据、Alpha158量价因子与国金因子库人工构建的含基本面因子在内的116个风格因子。 图表1:主要数据集与对应描述 编号 名称 描述 数据集1 K线 高开低收、VWAP和成交量共6个原始日线量价数据 数据集2Alpha158 微软的机器学习量化投资框架Qlib中利用股票的高开低收等量价数据计算并标准化所得 数据集3GJQuant国金因子库人工构建的含基本面因子在内的116个风格因子 来源:Wind,Qlib,国金证券研究所 本文使用的数据集涵盖了从2005年1月1日至2024年9月30日的数据。后续的回测主 要从2015年2月1日开始,但由于某些方法存在局限性,部分回测从2016年2月1日开始。我们对所有数据集应用了时序上的鲁棒标准化(robustz-score)方法进行归一化处理。 在模型选择方面,为了让GRU模型能够有效学习时序规律,我们仅使用数据集1作为输入。而对于LightGBM模型,由于它特别擅长集成弱因子并且高度依赖特征工程,我们选择了数据集2和3作为输入。 为了确保结果具有实际的可交易性,我们将次日(T+1)的收盘价收益率设定为模型训练的目标。本文主要考虑月频调仓,因此使用20日收益率作为标签。在训练过程中,我们对收益率进行排序处理,以增强模型的学习效果。 考虑到训练过程可能受到随机种子的影响,我们对每个模型进行了3次独立训练,并取平均值作为最终结果。 二、GRU模型在中证A500指数上的优化探索 在使用时序神经网络模型时,普遍的观点认为需要大量的样本数据才能准确捕捉市场规律。因此,即便我们只关注某个特定的股票领域,通常也会在整个A股市场范围内进行训练,这样往往能取得比仅在单一股票领域训练更好的效果。本章将对这一结论进行验证,同时我们将通过改进模型结构和训练方式,有针对性地提升GRU模型的表现。 2.1成分股训练:效果有限 首先,我们尝试分别使用全A股市场数据和中证A500成分股数据进行模型训练,随后比较模型在中证A500成分股上的表现。模型训练集为2005年1月1日至2012年31日,验 证集为2013年1月1日至2014年12月31日,回测区间设定为2015年2月1日至2024 年9月30日。 图表2:全A与中证A500成分股训练统计数据 IC均值 风险调整 的IC t统计量 多头年化超额收益率 多头Sharpe比率 多头信息比率 多头超额最大回撤 多空年化收益率 多空波动率 多空Sharpe比率 多空最大回撤 全A训练 11.28% 0.83 8.98 13.06% 0.70 1.64 10.77% 38.25% 0.18 2.11 20.60% 成分股训练 10.98% 0.80 8.66 13.48% 0.70 1.73 10.35% 37.59% 0.19 2.00 23.16% 来源:Wind,国金证券研究所 图表3:全A与中证A500成分股训练多空组合净值图表4:全A与中证A500成分股训练分位数组合年化超 额收益 35 30 25 20 15 10 5 0 全A训练成分股训练 20.00% 15.00% 10.00% 5.00% 0.00% -5.00% -10.00% -15.00% -20.00% -25.00% 0123456789 全A训练成分股训练 来源:Wind,国金证券研究所来源:Wind,国金证券研究所 从结果来看,成分股训练相较于全A股训练,在IC和多空策略上的表现都有所逊色,仅在多头策略上表现出微弱的优势。因此,直接使用成分股数据进行GRU训练,并不能取得理想的效果。 2.2归一化模块:增强模型表现 由于成分股训练未能提升GRU模型的表现,因此我们应首先着力于改进基于全A数据训练的GRU模型。我们注意到,在简单的GRU架构中通常不使用归一化层,然而归一化层在深度学习中可以显著提高模型的训练精度和效率。本小节将对两种常见的归一化方法:批归一化(BatchNorm,BN)和层归一化(LayerNorm,LN)进行介绍和应用探讨。 BatchNorm和LayerNorm是深度学习中常用的两种归一化技术,它们的主要目的是减少内部协变量偏移(InternalCovariateShift),即网络层输入分布的变化,以加速训练过程并提高模型的稳定性。BatchNorm在网络的每个层之后(通常是在激活函数之前),对于每个特征通道,计算当前小批量数据的均值和方差,使用上述计算的均值和方差对数据进行归一化。归一化后的数据可以通过两个可学习的参数(缩放因子γ和偏移量β)进行缩放和平移,以恢复模型的表达能力。BatchNorm的优点包括:1)减少梯度消失问题,加速训练;2)允许更高的学习率;3)可以看作是一种正则化,有助于减少过拟合。LayerNorm整体步骤与BatchNorm类似,与BatchNorm不同的是在单个样本的层级上进行归一化。 之前的报告中,通常不使用归一化层或者使用BatchNorm层,但实际上,对于循环神经网络(RNN)类的模型,LayerNorm更受到欢迎,原因是多方面的。 图表5:RNN模型中LayerNorm相较于BatchNorm的优点 优点具体解释 在RNNs中,保持序列内部的相对关系非常重要。LayerNorm通过在单个样本上进行 保持时序特征