您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[东方证券]:因子选股系列之一〇六:基于风险注意力的因子挖掘模型 - 发现报告
当前位置:首页/其他报告/报告详情/

因子选股系列之一〇六:基于风险注意力的因子挖掘模型

2024-05-29杨怡玲、薛耕东方证券严***
因子选股系列之一〇六:基于风险注意力的因子挖掘模型

基于风险注意力的因子挖掘模型 ——因子选股系列之一〇六 研究结论 在之前的报告中,我们通过使用行业关联、分析师共同覆盖和基金共同持仓这三种股票间的显式关系,构建了一个异构图模型。这个模型使得个股特征可以在三种关系路径上传播和聚合,从而引入关联股票的信息,提升了原始因子的表现。在本文 中,我们利用注意力机制解决了股票间关联关系刻画的诸多难点,实现了时序信息 和空间信息的融合。仅仅使用行情信息和风险因子的情况下,我们的RankIC达到了0.106,多头超额年化收益率达到了40.3%。 先验图的缺陷包括以下几点:1)稀疏性:例如,近期没有被分析师覆盖的大多数个股,无法与其他股票在分析师层面上产生关联。2)对称性:大部分的先验关系不具有方向性,大小市值的个股对彼此的影响权重是相同的,这有悖于常识。3)主观性:先验关系大多来自于人为定义,比如行业定义、研报覆盖窗口和基金池等。4)滞后性:类似基金持仓的披露数据相比实际发生时间滞后了2-4个月。5)类别众多:异构图模型的参数量与关系种类成正比,关系种类越多,模型参数量越大。 图网络与注意力机制的一致性:图注意力网络(GAT)通过将“目标节点特征”和“源节点特征”合并并降维,计算出关联权重,这种注意力机制被称为“加性注意力”。与之对应的“乘性注意力”则通过“目标节点特征(Q)”和“源节点特征 (K)”的点积来获得关联权重。无论使用哪种注意力机制,一旦获得关联权重,节点特征(V)便在该关联矩阵上进行传播和聚合,二者的机制基本一致。 用风险关联传播量价特征:在传统的Transformer模型中,如果Q、K、V都来自同一数据源,则为自注意力;如果只有K和V来自同一数据源,则为跨注意力。在本文中,Q和K源自风险因子,而V源自行情数据,用以探索基于风险特征的注意力是否能引入关联股票的量价特征,从而增强个股的量价特征。我们将这个模型称为Risk-Attention模型。 数据和训练:本文使用了30天的OHLCV时序数据作为行情数据,10个DFQ-2020因子(类似Barra因子)加上29个行业哑变量,共计39个截面风险因子。 我们对未来T+1至T+11天的收益率标签进行拟合。训练策略采用“10+1+1”的“训练-验证-测试”窗口,按年进行滚动训练。每个数据集训练三次,并取预测结果的平均值,样本频率为周频。 回测结果:Risk-Attention模型在周频(2018年1月5日-2024年3月15 日)上的表现如下:RankIC为0.106,ICIR为6.30,夏普值为5.23,多头超额年化收益率达到40.3%。相较于仅使用时序信息的RawGRU和简单拼接风险因子的CatMLP,Risk-Attention在2020年后的收益表现尤为突出,体现出了其结构的有效性(如下图所示)。 风险提示 量化模型失效风险、市场极端环境冲击 三模型回测超额净值对比 金融工程|专题报告 报告发布日期2024年05月29日 杨怡玲yangyiling@orientsec.com.cn 执业证书编号:S0860523040002 薛耕xuegeng@orientsec.com.cn 执业证书编号:S0860523080007 非线性市值风控全攻略:——因子选股系列之一〇五 2024-05-27 融合基本面信息的ASTGNN因子挖掘模 2024-05-27 型:——因子选股系列之一〇四DFQ-FactorVAE:融合变分自编码器和概 2024-05-14 率动态因子模型的alpha预测方案:——因子选股系列之一〇三 6 5 净值 4 3 2 1 0 2018/1/92019/1/92020/1/92021/1/92022/1/92023/1/92024/1/9 RawGRUCatMLPRiskAttention 有关分析师的申明,见本报告最后部分。其他重要信息披露见分析师申明之后部分,或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。 目录 一、引言4 二、模型与数据6 2.1图与注意力机制6 2.2风险注意力模型7 2.3数据说明8 三、测试结果9 3.1训练策略9 3.2回测说明10 3.3回测结果11 四、Risk-Attention模型讨论13 4.1注意力结构带来的信息增量13 4.2对于注意力权重矩阵的解读14 五、总结与讨论16 六、风险提示17 七、引用文献17 图表目录 图1:前序报告模型和因子回测结果4 图2:加性注意力和乘性注意力6 图3:Risk-Attention模型结构7 图4:大类风险因子列表8 图5:训练策略说明9 图6:回测说明10 图7:因子整体表现及多头净值分析11 图8:IC序列、IC50周滚动均值及IC累加11 图9:分年RankIC及分年多头超额11 图10:分组超额净值(颜色越深,因子打分越高)12 图11:分组超额年化收益12 图12:三模型结构说明13 图13:三模型净值对比14 图14:三模型分组年化超额收益对比14 图15:三模型因子回测表现14 图16:注意力权重矩阵热力图15 一、引言 在前序报告《基于异构图神经网络的股票关联因子挖掘》中,我们使用了同行业、分析师覆盖和共同持仓这三种先验信息作为关联矩阵。通过图卷积网络(GCN),我们使63个截面量价因子在该关联矩阵上进行传播、聚合和更新,从而构建了一个描述多类型关系的异构图模型。该模型在月频数据上的表现为:RankIC0.122,ICIR3.08,夏普值2.80,多头超额年化收益率为20.7%。 图1:前序报告模型和因子回测结果 RankIC ICIR Sharpe AnnRet Vol MaxDD 2015 2016 GNN 0.122 3.08 2.80 20.7% 7.4% -11.2% 60.1% 36.9% GNNXGB 0.125 3.19 2.95 21.0% 7.1% -10.1% 59.1% 35.7% 2017 2018 2019 2020 2021 2022 2023 GNN -2.8% 22.5% 9.8% 5.6% 15.1% 22.2% 16.8% GNNXGB -0.9% 18.3% 10.5% 5.9% 14.4% 21.8% 22.9% 数据来源:东方证券研究所&Wind资讯 在构建股票市场的图模型时,使用先验信息构建的邻接矩阵(即先验图)存在若干缺陷,影响了模型的性能和准确性。 1.稀疏性:首先,先验图中,许多节点之间没有直接的关联信息,这导致了邻接矩阵的稀疏性。例如,许多股票可能在近期没有被分析师覆盖过,因此无法在分析师层面与其他股票建立关联。这种稀疏性限制了信息的传播和特征的聚合,无法充分捕捉股票之间的潜在关系,从而影响模型的学习和预测精度。 2.对称性:大部分先验关系在构建邻接矩阵时被认为是对称的,即两个节点之间的关联权重相同。然而,现实中的股票市场关系往往具有方向性,例如大市值股票对小市值股票的影响力通常更大,但反之则不一定成立。这种对称性假设可能导致信息传递的错误,无法准确反映股票间的真实影响关系,从而影响预测结果的准确性。 3.主观性:先验关系大多来自于人为的定义,例如行业定义、研报覆盖窗口、基金池等,这些定义可能带有一定的主观性,无法全面反映股票间的真实关系。人为定义的先验关系可能带有偏见,影响模型的公正性和准确性,且这些主观定义的先验关系可能不适用于所有市场和环境,限制了模型的泛化能力。 4.滞后性:先验信息通常基于历史数据,而这些数据在当前市场条件下可能已经过时。例如,基金持仓数据的披露通常滞后2-4个月,无法反映实时的市场变化。 5.关系类别众多:在异构图模型中,不同类型的关系可能导致参数量急剧增加,关系种类越多,模型的复杂度和计算开销也随之增加。 综上所述,先验图的应用面临稀疏性、对称性、主观性、滞后性和类别众多等挑战。我们希望引入自适应图结构、数据驱动的关系学习,最终可以根据股票自身信息及时构建出有向的、稠密的关联关系。 二、模型与数据 2.1图与注意力机制 图注意力网络(GraphAttentionNetwork,GAT)和点积注意力机制(Dot-ProductAttention)在传播逻辑上一致,在图构成的时候略有区别。具体来说,GAT通过对“目标节点特征”和“源节点特征”的合并来计算关联权重,这种方法被称为“加性注意力”。在加性注意力中,目标节点和源节点的特征向量首先进行拼接,然后通过一个线性变换和非线性激活函数来计算注意力权重。这种机制允许模型在计算关联权重时考虑目标节点和源节点特征的综合信息,从而自适应地调整节点间的权重。 与加性注意力相对应的是“乘性注意力”(这也是广义“注意力”的定义)。乘性注意力则是通过“目标节点特征(Query,Q)”和“源节点特征(Key,K)”进行点积运算来得到关联权重。具体来说,乘性注意力首先通过线性变换得到查询向量和键向量,然后计算这两个向量的点积,再通过Softmax函数归一化得到关联权重。乘性注意力的方法强调目标节点特征和源节点特征的相似性,更加符合图论中传播的逻辑。 无论是加性注意力还是乘性注意力,在得到关联权重后,节点特征(Value,V)就在该关联矩阵上进行传播、聚合和更新,二者本质上都是图论。 图2:加性注意力和乘性注意力 数据来源:东方证券研究所绘制 2.2风险注意力模型 在传统的Transformer模型中,如果Q、K、V都来自同一数据源,则称为自注意力;如果只有K和V来自同一数据源,则称为跨注意力。在本文中,Q和K源自风险因子经由不同线性变化过后的风险特征,而V源自GRU对行情数据提取后的量价特征,用以探索基于风险特征的注意力是否能引入关联股票的量价特征,从而增强个股的量价特征。我们将这个模型称为Risk-Attention模型。它的左边构成了图,右边构成了在图上传播的特征向量。 图3:Risk-Attention模型结构 数据来源:东方证券研究所绘制 Risk-Attention模型由以下几部分组成: 1.输入特征: 风险特征(�∈ℝ𝑁×𝐹):10个类Barra风险因子和29个行业因子共39个。 行情数据(O∈ℝ𝑁×𝐿×𝐷):包含每只股票的开盘价、最高价、最低价、收盘价和成交量的历史数据。 2.对风险特征进行线性变换,得到查询(𝑄)和键(𝐊)矩阵; �=R𝑊�+𝑏� �=R𝑊�+𝑏� 3.将行情数据(𝑂)输入GRU,生成隐藏状态,进行线性变换,得到值(𝐕)矩阵; �=GRU(𝐎) �=𝐇𝐖�+𝐛� 4.注意力机制:通过查询(𝐐)和键(𝐊)矩阵计算注意力权重,使用注意力权重(𝐀)对值(𝐕) 进行加权求和,得到新的特征(𝐙); 𝐐𝐊� �=softmax() √� �=𝐀� 5.跳跃连接(concat)与MLP特征合成; 𝐇′=𝐇||� 2.3数据说明 �=𝐌𝐋𝐏(𝐇′) 本文的因子检验和组合测试起止于2009年1月4日到2024年3月22日,样本空间为中证全指同期成分股。标签采用T+1收盘至T+11收盘的涨跌幅,标签经过标准化处理,但未进行中性化。行情时序数据为A股全市场个股的OHLCV,时序长度为30天。 截面风险因子由10个大类风险因子和29个中信一级行业哑变量组成。10个大类因子来自报告《东方A股因子风险模型(DFQ-2020)》,如图5所示。大类因子的取值来源于成分因子的算术平均。该因子风险模型对全市场的AdjustedR-square能够达到21.4%。 图4:大类风险因子列表 数据来源:东方证券研究所&Wind资讯 数据预处理的部分,我们对行情数据和截面风险因子进行了标准化处理。对(𝑁,𝐿,𝐷)的行情数据,我们对每个(𝑁,𝐿)进行标准化,相当于计算出�个均值和标准差,这样不会改变跨时间和跨样本的大小关系;针对(𝑁,𝐹)的截面风险因子,我们计算出�个均值和标