基于异构图神经网络的股票关联因子挖掘 ——因子选股系列之九十九 研究结论 图神经网络(GNN)近年来成为图分析的主流工具,同样也是量化领域的研究热点,这种网络结构能够整合股票间复杂的关联信息。与传统的图聚类和中心性度量等方法相比,GNN通过节点和邻边的特征传递机制,可以更深入地挖掘和利用图结构中的数据,如供应链关系和行业分类,以增强个股预测的准确性。 异构图的多维度融合:本报告通过构建异构图神经网络(HeterogeneousGraph 金融工程|专题报告 报告发布日期2024年01月02日 杨怡玲yangyiling@orientsec.com.cn 执业证书编号:S0860523040002 薛耕xuegeng@orientsec.com.cn 执业证书编号:S0860523080007 NeuralNetwork)对股票市场进行建模,有效地融合了多种类型的节点和边。股票的量价因子作为节点特征,行业归属、基金共同持仓和分析师共同覆盖作为邻边特征,共同构成了一个多维度的异构图模型。这种融合方法不仅丰富了模型的信息维度,也提高了对未来收益率预测的准确性。 残差连接防止特征稀释:为了应对图神经网络中邻居特征聚合导致的中心节点特征稀释问题,本研究引入了残差连接。通过将中心节点的原始特征与聚合后的邻居特征结合,残差连接确保了中心节点的特征在传播过程中得以保留。这种设计有效地提高了模型处理大量邻居节点情况下的稳定性和性能。 XGBoost的两阶段训练:本研究在GNN的全连接层后端采用了“因子单元”模块,并结合梯度提升算法XGBoost进行了二次训练。通过这种两阶段训练方法,模型能够更有效地提取和利用正交的弱因子,优化了股票预测打分的准确性。相比直接预测,这种方法展现了更强的泛化能力和更优的预测结果。 RNN与GNN的融合:本报告同时考虑了循环神经网络(RNN)和图神经网络 (GNN)的优势,结合了股票数据的时间维度(RNN)和空间维度(GNN)特征。通过这种融合,模型不仅能够分析股票的时序模式,还能捕捉股票间的相互关系。这种融合策略显著提高了因子的整体绩效,证明了时间和空间信息融合的有效性。 数据和训练:本文使用了63个颗粒度为日的常见量价因子作为股票的原始特征,针对GNN模型,节点特征为量价因子的截面数据,邻边特征为同行业归属、基金共同持仓和分析师共同覆盖;针对RNN模型,数据格式为这些量价因子的时间序列。报告采用“5+1+1”的“训练-验证-测试”窗口,按年进行滚动训练,样本频率为月频,对后20日收益率(中性化)进行拟合。 回测结果:基于GNN二阶段模型的因子(月频)表现为:RankIC0.125,ICIR3.19,夏普值2.95,多头超额年化收益21.0%。将其与RNN结合之后,得到的综合因子绩效均有提升:RankIC0.131,ICIR3.36,夏普值3.40,多头超额年化收 益25.4% 风险提示 量化模型失效风险、市场极端环境冲击 基于抗噪的AI量价模型改进方案:——因子选股系列之九十八 DFQ-TRA:多交易模式学习因子挖掘系统:——因子选股系列之九十七 基于残差网络的端到端因子挖掘模型:— —因子选股系列之九十六 DFQ强化学习因子组合挖掘系统:——因子选股系列之九十五 UMR2.0——风险溢价视角下的动量反转统一框架再升级:——因子选股系列之九十四 集成模型在量价特征中的应用:——因子选股系列之九十三 2023-12-24 2023-11-14 2023-08-24 2023-08-17 2023-07-13 2023-07-01 有关分析师的申明,见本报告最后部分。其他重要信息披露见分析师申明之后部分,或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。 目录 一、引言5 二、图神经网络7 2.1GCN7 2.2节点特征8 2.3邻边建模8 三、GNN模型及测试结果11 3.1不同邻边同质图模型测试11 3.2异构图模型测试14 四、GNN与RNN的模型融合18 4.1RNN模型19 4.2混合模型21 4.3增强组合表现23 五、总结与讨论24 六、风险提示24 七、引用文献25 图表目录 图1:GNNXGB+RNNXGB模型超额收益表现6 图2:子模型回测对比6 图3:GCN示例7 图4:因子列表8 图5:股票数量前十的中信一级行业(截至20231031)8 图6:单一股票被重仓最多(截至20231031)9 图7:被同时重仓次数最多的股票对(截至20231031)9 图8:单一股票被分析师覆盖最多(截至20231031)10 图9:被同分析师覆盖次数最多(截至20231031)10 图10:训练测试框架11 图11:同质图模型结构细节12 图12:行业因子RankIC表现13 图13:行业因子分组超额净值13 图14:基金重仓因子RankIC表现13 图15:基金重仓因子分组超额净值13 图16:分析师覆盖因子RankIC表现14 图17:分析师覆盖因子分组超额净值14 图18:各邻边因子相关性14 图19:二阶段GNN模型细节15 图20:GNN训练过程损失值变化16 图21:GNN训练过程RankIC变化16 图22:XGBoostRanker对GNN的增强效果16 图23:GNNXGB因子RankIC16 图24:GNNXGB因子分组超额净值16 图25:GNNXGB因子多头超额净值17 图26:整体模型结构18 图27:二阶段RNN模型细节19 图28:GNN训练过程损失值变化20 图29:GNN训练过程RankIC变化20 图30:XGBoostRanker对RNN的增强效果20 图31:RNNXGB因子RankIC21 图32:RNNXGB因子分组超额净值21 图33:RNNXGB因子多头超额净值21 图34:GNNXGB与RNNXGB残差因子回测22 图35:GNN与RNN合并22 图36:各模型回测结果对比22 图37:指数增强参数23 图38:指数增强组合回测结果23 图39:指数增强组合净值23 一、引言 目前基于深度学习的因子研究大部分都基于循环神经网络等时间序列模型来提取个股的因子特征并构建收益预测模型,这些时间序列模型都更注重于股票自身的个体信息,而忽略了股票间的关联,例如同行业的股票往往会同涨同跌,而这种股票间的关联信息并没有在模型中得到体现,因此模型很难学到这种关联特征并用于收益预测。股票间的关联信息本质可以用一个图模型来表示。 在传统的图分析中,有一些比较成熟的技术可以刻画这种关联 1.图聚类方法,尤其是谱聚类,已经被广泛研究并应用于多种场景,如社交网络分析和生物信息学。谱聚类通过利用图的拉普拉斯矩阵的特性,将图聚类问题转化为矩阵特征向量的问题,使得可以通过计算拉普拉斯矩阵的特征值和特征向量来识别图中的社区结构(vonLuxburg,2007)。社区检测算法,如基于模块度优化的方法,旨在将网络划分成模块度最大的社区。模块度是衡量一个网络划分质量的指标,反映了社区内节点的连接密度相对于随机连接的程度(Newman,2006)。层次聚类是另一种方法,它通过不断合并节点或社区来形成更大的社区,这种方法能够揭示网络的层次结构(Clausetetal.,2004)。 2.中心性度量则是用于识别网络中最重要或最有影响力节点的一组指标。度中心性简单地衡量一个节点的邻居数,是最直接的中心性度量(Freeman,1978)。接近中心性考虑了节点到网络中其他所有节点的平均距离,衡量节点的可达性(Bavelas,1950)。介数中心性量化了一个节点在网络中所有最短路径上的出现频率,反映了节点在网络中的媒介作用 (Freeman,1977)。特征向量中心性则是基于这样的概念,即一个节点的重要性不仅取决于它自己的连接数,而且还取决于它连接节点的重要性(Bonacich,1987)。 3.图嵌入使用矩阵分解来生成节点的低维向量表示,是一种有效的节点表示学习方法。这种方法可以揭示节点的潜在特征和网络的全局结构(Korenetal.,2009)。 在以上的方法之外,图神经网络(GraphNeuralNetwork,GNN)逐渐成为图分析的主流,在量化领域也逐渐成为研究热点,这种网络结构可以整合相关联的股票信息,将更宏观的信息集成到个股中,比如供应链上下游、同行业、分析师覆盖、共同持仓。这些数据的更新频率慢,且被多个股票共享,很难形成有效的选股因子,但可以被图神经网络所用,形成边的特征(EdgeFeature),个股被这样的边所连接,其自身的特征(NodeFeature)在边上传递,得到了来自邻居节点的增强。 本报告基于异构图神经网络建模多种类型的股票间关联信息来对股票自身信息进行增强,并和循环神经网络模型结合,同时囊括时间信息和空间信息,进一步提升因子表现。本文使用常见的量价因子作为节点特征,同行业、同分析师覆盖、基金共同持仓作为邻边特征,分别使用RNN和GNN模型得到两个深度学习因子,二者复合后可同时整合股票的时间信息和空间信息,复合因子选股能力相比二者得到明显提升。 本文具备以下亮点: 1.异构图的多维度融合:本研究通过引入行业、分析师和基金重仓等三种关联信息来建模股票间的邻接特征,并采用异构图(HeterogeneousGraph)进行融合。这种方法有效整合了多类型节点和邻边特征,展现出优于单一维度分析的效果。异构图在处理复杂网络结构中的多元关系方面展现出宽泛的应用潜力,本文提出的新颖解决方案增强了对这些复杂数据关系的 理解和分析能力。 有关分析师的申明,见本报告最后部分。其他重要信息披露见分析师申明之后部分,或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。 2.解决GNN的特征稀释问题:面对图神经网络(GNN)在多次聚合过程中可能出现的特征稀释问题,本研究引入了可控的残差连接。这种方法通过固定权重约束来保持单次聚合后节点自身特征的一定比例,有效解决了消息聚合过程中节点特征稀释的问题,从而提升了模型的稳定性和性能。 3.XGBoost的两阶段训练优化:本文在全连接层的设计上采用了“因子生成模块”,结合均方误差和正交惩罚项作为损失函数,提取正交的弱因子。这些因子随后作为XGBoostRanker的输入,进一步优化股票的预测打分。我们发现,这种两阶段方法在回测表现上优于直接使用单一GNN模型的预测,显示出模型在提高预测准确性和效率方面的优势。 4.RNN与GNN的融合增强模型:结合循环神经网络(RNN)和图神经网络(GNN)的特点,本研究创建了一个融合模型。RNN专注于股票特征的时间维度分析,而GNN则侧重于空间维度,即股票间的相互关系。这种融合模型充分利用了时间序列和网络空间的信息,其综合因子在绩效上优于单一模型,证明了融合时间和空间信息在股票市场分析中的有效性。 图1:GNNXGB+RNNXGB模型超额收益表现 80% 7 6 -5% 5 4 3 -10% 2 1 0 201520162017201820192020202120222023 回撤(右轴)多头超额(左轴) -15% 数据来源:东方证券研究所&Wind资讯&朝阳永续 图2:子模型回测对比 RankIC ICIR Sharpe AnnRet Vol MaxDD 2015 2016 XGB 0.089 2.66 2.20 14.0% 6.4% -12.6% 45.4% 35.3% GNN 0.122 3.08 2.80 20.7% 7.4% -11.2% 60.1% 36.9% GNNXGB 0.125 3.19 2.95 21.0% 7.1% -10.1% 59.1% 35.7% RNN 0.123 3.35 3.05 21.8% 7.1% -10.6% 69.9% 38.6% RNNXGB 0.128 3.15 3.20 23.6% 7.3% -9.4% 78.9% 38.0% GNN