融合基本面信息的ASTGNN因子挖掘模型 ——因子选股系列之一〇四 研究结论 融入基本面信息的ASTGNN模型 本文使用一些量价和基本面数据作为输入,通过优化风险因子与收益率之间的R-square、风险因子自相关系数和风险因子间的膨胀系数来训练RNN+GAT模型生成风险因子,并利用所生成的风险因子来计算图模型中的邻接矩阵,以期更精确的度量交易日截面上个股之间的相似度关系。 金融工程|专题报告 报告发布日期2024年05月27日 杨怡玲yangyiling@orientsec.com.cn 执业证书编号:S0860523040002 陶文启taowenqi@orientsec.com.cn 考虑到高频量价数据集与长周期数据集天然的低相关性,并且长周期数据所蕴含信息对预测短期收益率也有一定的能力,因此我们加入长周期数据集,以给全模型提供信息增量,从而进一步提升最终生成因子的选股效果。 单数据集上实验结论 整体来看,今年以来截至2024年4月30日各个数据集中,数据集week和 lfq_monthly表现最好,超额均超过了20%,且最大回撤相对往年更低。 长周期数据集与其他数据集相关性较低,其中lfq_monthly因子相关性均低于0.5,这意味着通过引入基本面可以给数据集带来信息增量,但日度采样的估值因子中包含了日度个股价格序列信息,在RNN进行时序学习的时候可能过度捕捉这一部分信息,最终导致最终生成因子与数据集day和Ms生成因子相关性相对较高 对综合打分贡献度最高的数据集是week数据集,而贡献程度最低的是l2数据集。事实上相较于其他几个数据集,l2数据信息含量更加丰富,与其他数据集之间的相关性也更低,因此认为l2数据集仍有较大改善空间。 合成因子的实验结论 从最终因子回测结果来看我们可以得到:1.相较于基准模型,加入长周期数据集之后模型RankIC、ICIR等指标均显著提升,多头组合换手率也显著降低。这说明通过加入与高频量价数据集低相关的长周期数据集后,全模型能够得到更多的信息增量,从而大大提高最终生成因子的选股效果。2.通过引入机器学习得到的风险因子 来构建图模型的邻接矩阵后,因子RankIC、top组年化超额收益率等指标得到进一步提升,多头组合换手率也能进一步降低,这说明使用机器学习风险因子来进行股票相似度的刻画更加精确。 基于两种改进方案融合后,新模型非线性加权合成打分2018年以来截至2024年4月30日在中证全指上周频RankIC均值可达16.61%,top组年化超额可达50.41%;在沪深300、中证500、中证1000这三个指数上RankIC均值分别为10.70%、13.05%、16.09%。该打分可直接用于月频调仓,在中证全指上2018年和2020年以来截至2024年4月30日月频RankIC分别为19.16%和17.53%,ICIR为2.07和 2.10,分二十组多头超额为35.03%和35.27%。相较于基准模型,各宽基指数股票 池上两种改进方案生成因子的选股能力均有明显提升效果,并且衰减速度将显著降低。 本文生成因子也可以直接应用于指数增强策略,在各宽基指数上均能获得显著的超额收益,在成分股100%限制和周单边换手率约束为20%约束下,2018年以来截至2024年4月30日,新模型打分在沪深300、中证500和中证1000增强策略上年化超额收益率分别为16.98%、19.96%和31.63%。 风险提示 量化模型失效 极端市场造成冲击,导致亏损 基本面因子的重构:——因子选股系列之一〇二 自适应时空图网络周频alpha模型:——因子选股系列之一〇一 基于抗噪的AI量价模型改进方案:——因子选股系列之九十八 基于残差网络的端到端因子挖掘模型:— —因子选股系列之九十六 基于循环神经网络的多频率因子挖掘:— —因子选股系列之九十一 2024-03-21 2024-02-28 2023-12-24 2023-08-24 2023-06-06 有关分析师的申明,见本报告最后部分。其他重要信息披露见分析师申明之后部分,或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。 目录 引言4 一、融入基本面信息的ASTGNN模型5 1.1图模型邻接矩阵的改进5 1.2加入基本面数据集8 二、各数据集单因子分析10 2.1回测说明10 2.2各数据集单因子绩效分析11 2.3各数据集单因子相关系数分析12 2.4各数据集特征重要性分析12 三、各数据集因子非线性加权结果分析13 3.1中证全指上的表现13 3.2各宽基指数上的表现14 四、合成因子指数增强组合表现15 4.1增强组合构建说明15 4.2沪深300指数增强16 4.3中证500指数增强17 4.4中证1000指数增强18 五、结论19 风险提示20 图表目录 图1:端到端AI量价模型框架4 图2:RNN+GAT网络结构6 图3:风险因子提取模型的输入7 图4:因子滞后五天自相关系数7 图5:因子单元提取网络结构8 图6:两种采样方式下长周期数据集的表现9 图7:日度采样分年度表现9 图8:月度采样分年度表现9 图9:长周期数据集生成因子暴露情况10 图10:各数据集因子汇总表现(回测期20231229~20240430)11 图11:今年以来各数据集因子多头净值走势(回测期20231229~20240430)11 图12:各数据集生成因子间相关系数矩阵12 图13:各数据集特征重要性分析12 图14:中证全指选股汇总表现(回测期20171229~20240430)13 图15:中证全指因子各分组超额表现13 图16:中证全指各年度多头组合选股表现(回测期20171229~20240430)14 图17:各宽基指数上选股表现(回测期20180101~20231231)15 图18:沪深300指增组合分年度超额收益率(回测期20171229~20240430)16 图19:沪深300指增组合汇总结果(回测期20171229~20240430)16 图20:沪深300指增组合净值走势(成分股100%限制,净值左轴,回撤右轴)16 图21:中证500指增组合分年度超额收益率(回测期20171229~20240430)17 图22:中证500指增组合汇总结果(回测期20171229~20240430)17 图23:中证500指增组合净值走势(成分股100%限制,净值左轴,回撤右轴)17 图24:中证1000指增组合分年度超额收益率(回测期20171229~20240430)18 图25:中证1000指增组合汇总结果(回测期20171229~20240430)18 图26:中证1000指增组合净值走势(成分股100%限制,净值左轴,回撤右轴)18 引言 随着机器学习学科的高速发展,以神经网络、决策树为主的机器学习模型在量化领域的应用受到相关研究人员的广泛关注,前期报告《基于循环神经网络的多频率因子挖掘》、《基于残差网络端到端因子挖掘模型》、《基于抗噪的AI量价模型改进方案》和《自适应图神经网络周频alpha模型》中,我们利用循环神经网络(RNN)、残差网络(ResNets)、自适应图神经网络 (ASTGCN)和决策树模型搭建了端到端AI量价模型框架,这套框架的输入是个股最原始的K线数据比如高开低收换手率等,而最终的输出则是具有较强选股能力的alpha因子。我们将其该框架生成的因子应用于选股策略。回测结果显示该策略在样本外有着十分显著的选股效果。 这套AI量价模型框架主要是基于多个不同频率数据集搭建的,这些数据集分别是周度 (week)、日度(day)、分钟线(ms)和Level-2(l2)数据集。其中周度和分钟线数据集我们分别是将每五个交易日日K线和每日半小时K线形成矩阵数据,然后将这些矩阵通过ResNets提取出相应时间频度的特征向量,接着将ResNets提取的特征向量按照时间先后输入到RNN模型中进行时序学习,最终获得相应数据集的alpha因子。数据集day则是直接将预处理好的日K线数据通过RNN模型提取出相应的alpha因子。四个数据集中只有Level-2则是将原始数据通过人工合成成日频因子的方式形成的。 整个AI量价模型框架分为三个部分,数据预处理、提取因子单元、因子单元动态加权。数据预处理包括去极值、标准化和补充缺失值三个步骤,而提取因子单元则是通过将预处理好后的特征或者残差网络提取得到的特征通过RNN和图模型转化成一系列具有一定选股能力的弱因子,因子加权则是利用决策树对这些不同数据集上生成的弱因子进行短周期非线性加权形成模型最终的个股得分,部分整个流程如下图所示: 图1:端到端AI量价模型框架 数据来源:东方证券研究所绘制 该端到端AI量价模型框架的因子单元提取阶段,我们借助RNN模型强大的时序提取能力,将输入的时间序列数据加工成含有时序信息的截面特征,最后利用图模型来考虑交易日截面个股之间的关联关系,最终得到我们所需的因子单元。 我们使用的图模型区别于传统模型,即不再使用先验信息来构建邻接矩阵,完全根据输入数据学习出短期个股的交互关系,利用两支RNN模型来进行学习,其中一支RNN模型(称为主GRU)用于生成图模型的输入,而根据另外一支RNN模型(称为次GRU)的输出来计算个股之间的交互关系(即邻接矩阵)。由于我们在训练的时候损失函数部分没有考虑到生成邻接矩阵的RNN模型,因此我们学习到的邻接矩阵可能存在一些缺陷: 1.由于我们是将次RNN模型输出的个股特征来刻画个股“属性”,并利用这种“属性”来计算个股之间的相似度从而获取个股的邻接矩阵,但如果不对次GRU进行约束,可能导致所生成的特征对个股“属性”刻画比较粗糙从而使得邻接矩阵对个股相似度刻画“准确性”大打折扣。 2.邻接矩阵代表股票间的关联关系,如果邻接矩阵变化速度过快,将会在导致模型最终生成因子换手率大幅提高,这意味着实盘中将付出更多的交易费用,另外一方面不对邻接矩阵自相关系数进行控制会导致在训练过程中更多学习到数据中的噪声,从而使得邻接矩阵鲁棒性下降,模型更加容易过拟合。 另一方面,一些长周期量价因子或者低频基本面因子对短周期预测能够起到一定的帮助,这部分数据蕴含的alpha信息往往与短周期量价数据的alpha信息相关性更低,使全模型获得更多信息增量。综合上述几个角度,本文将对原有的模型框架进行改进,以期能够让全模型的选股效果获得更大的提升。 一、融入基本面信息的ASTGNN模型 这一章我们将介绍融入基本面信息的ASTGNN模型,基本面信息的融入主要有两种方式:1.通过给神经网络输入一些量价与基本面数据让神经网络自助学习出一些风险因子,再利用这些风险因子构建图模型中的邻接矩阵;2.则是通过将一些基本面因子构建成数据集,通过RNN和DNN提取出因子单元,从而能和原始量价数据集的因子单元形成信息互补。下面我们将分别介绍这两种改进方案。 1.1图模型邻接矩阵的改进 前期报告《自适应时空图网络周频alpha模型》中,我们采用两支GRU模型的方式,利用相同的输入分别提取个股的属性特征向量和alpha因子特征向量(生成属性特征向量的GRU我们称次GRU,生成alpha因子特征向量的GRU我们称之为主GRU),最终形成自适应图模型的邻接矩阵和输入。这种方式虽然有助于区分相同股票提取出的属性信息和alpha信息,但是由于我们在模型阶段没有对生成属性特征的GRU进行限制,因而很可能两个GRU提取出来信息之间的重叠度仍然较高。 为了应对上述问题,我们使用RNN+GAT网络来提取属性特征向量(记为𝑭),该网络具体结构可表示为如下形式: 图2:RNN+GAT网络结构 数据来源:东方证券研究所绘制 上图中GAT为图注意力机制,Res-C表示残差连接,Full-C表示全连接变换加Batch-norm层,并且我们还将该部分网络的损失函数进行改进。输入端主要由基础数据和Barra十个因子构成,而新设