摘要 本文构建了一种融合时序特征提取、图结构关联与宏观状态约束的多模态深度学习选股框架。首先,通过Transformer编码器捕捉个股量价数据的长期时序依赖,提取自适应时间戳特征;其次,基于图注意力网络(GAT)构建行业关联图与资金流向图,解析行业拓扑结构中的非线性关联与资金交互网络中的传导效应;最后,引入物理信息神经网络(PINN),将宏观经济状态方程作为软约束嵌入模型,实现宏观信息对个股收益预测的信息映射。 多尺度Transformer模型(Multi-Transformer)。本文基于个股基本量价信息构建出15个时序量价特征,在20日、40日及80日的尺度下,分别利用Transformer进行时序信息处理,并引入门控融合层对三个不同尺度的信息进行加权融合。经回测,Multi-Transformer模型月IC均值10.95%,多头组合年化收益率为32.88%,月均单边换手率0.83X,10分组回测下因子多头组合表现并不显著,且除空头组合外,其余组合分化程度不高,Transformer模型及量价时序信息在因子挖掘效果层面更多聚焦于空头,具备进一步提升空间。 个股关联GAT模型(indcap-GAT)。本文从行业关联及资金流向两个角度进行个股关联信息的挖掘。首先基于申万一级行业分类构建行业关联图,并在行业关联的基础上额外构建跨行业边;其次基于部分资金流特征相似性构建资金流向相似边,从而构建资金图,随后两者经过GAT模型处。经模型回测,indcap-GAT因子月均IC为8.77%,多头组合年化收益率为32.77%,月均单边换手率0.61X,整体来看,仅靠个股关联信息训练出的indcap-GAT模型具备一定的选股效果,因子换手相较Multi-Transformer有显著的降低。 宏观状态方程构建与损失约束:本文从货币状态以及利率调节状态等角度构建了关于宏观状态虚拟变量的宏观状态方程。并引入PINN(物理信息神经网络)损失函数中物理损失项,在最终的时序截面双流网络模型中引入了宏观状态损失约束。 经过回测,PINN宏观信息约束下的时序截面双流网络模型(PINN-MTICG)因子月平均IC为11.41%,多头组合年化收益37.51%,月均单边换手率0.83X,因子表现相较于单独信息输入的Multi-Transformer与indcap-GAT模型均有所提升。且分组回测下,PINN-MTICG因子多空年化收益率44.67%,因子分组效果有所改善。 指数增强策略:PINN-MTICG模型沪深300指数增强策略年化超额收益率13.22%,近一个月、三个月、一年、三年超额收益率分别为5.53%、4.15%、24.56%以及8.83%;PINN-MTICG模型中证1000指数增强策略年化超额收益率16.96%,近一个月、三个月、一年、三年超额收益率分别为0.84%、3.59%、23.38%以及18.75%。 风险提示:报告对应的相关结论完全基于公开的历史数据进行算法构建、统计以及计算,文中部分数据有一定滞后性,同时也存在第三方数据提供不准确或者缺失等风险;策略效果结论仅针对于回测区间得出,并不预示其未来表现,也不能保证未来的可持续性,亦不构成投资收益的保证或投资建议。 1深度学习模型简介 深度学习模型中,传统的时序预测模型(如ARIMA、LSTM)虽在局部特征捕捉上表现尚可,但在处理跨周期依赖、市场异质性以及多源信息融合等问题时仍存在显著局限。此外,传统时序模型在训练过程中仅专注于个股特异性特征学习,绝大部分重心集中在内部驱动因素的学习,很难考虑到个股之间相互影响,以及宏观中观经济因素的外部影响。 基于“个股特异内部特征+个股关联中观特征+宏观信息”的多维度特征挖掘原则,本报告的核心方法论围绕三大主线展开: 首先,基于Transformer的时序特征编码器对股票价格、交易量等高频序列进行多尺度特征提取,通过多头注意力机制动态捕捉不同时间窗口下的个股内部状态的演变规律; 其次,利用截面维度下的行业属性、财务指标及市资金流特征构建行业关联图及资金流向图,并引入图注意力网络(GAT)建模股票间的非线性关联与风险传导路径,从而将传统投资组合理论中的“分散化”原则转化为可量化的图结构学习问题; 最后,针对宏观因素(如利率、社融等)与传统深度学习模型融合困难的问题,引入物理信息神经网络(PINN),通过构建带有经济约束的偏微分方程框架,将宏观变量的连续演化规律嵌入个股因子挖掘模型,实现“自上而下”与“自下而上”的结合。 图1:PINN信息约束与时序截面双流网络结构图 1.1TransFormer模型 Transformer是一种基于自注意力机制(Self-Attention)的深度学习模型,最初被提出用于自然语言处理领域,但其在时序数据处理中同样展现出强大的能力。相较于LSTM(Long Short-Term Memory),GRU(Gated Recurrent Unit)等循环神经网络,Transformer摒弃了递归结构,转而通过自注意力机制实现了全序列并行计算,这显著提升了训练速度。 此外,尽管LSTM和GRU通过门控机制缓解了梯度消失问题,但在超长序列中,这两个模型仍可能丢失早期信息;而Transformer的自注意力机制则直接建模模型中任意位置间的关联,无需依赖递归路径,因此相较于LSTM与GRU,更擅长捕捉跨周期的时序规律。 图2:TransFormer网络结构 Transformer的核心模块包括多头自注意力层(Multi-Head Attention)和前馈神经网络(Feed-Forward Net work)。其输入序列首先通过嵌入层转换为向量表示,并加入位置编码(Positional Encoding)以保留时序信息。自注意力机制通过计算序列中每个元素与其他元素的相关性权重,动态调整信息聚合方式。具体计算过程如下: (1)自注意力计算 给定输入矩阵𝑋,通过线性变换生成查询(𝑄𝑢𝑒𝑟𝑦)、键(𝐾𝑒𝑦)、值(𝑉𝑎𝑙𝑢𝑒)矩阵: 𝑄 = 𝑋𝑊,𝐾 = 𝑋𝑊,𝑉 = 𝑋𝑊 𝑄 𝐾 𝑉 其中W,W,W分别代表查询(Query)、键(Key)、值(Value)矩阵对应的线性变换矩阵。此外,通过点积𝑄, 𝐾计算注意力得分,进而得到自注意力值𝑍: Q K V 𝑇 𝑄𝐾√𝑑 ) 𝑉 𝑍 = 𝐴𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛(𝑄, 𝐾, 𝑉) = 𝑠𝑜𝑓𝑡𝑚𝑎𝑥 ( 𝑘 其中𝑑为键向量的维度,用于防止梯度消失,𝑠𝑜𝑓𝑡𝑚𝑎𝑥函数将一组数值转换为概率分布(总和为1),放大高分值的相对权重,从而实现注意力得分的归一化。 𝑘 除了上述提及的简单的自注意力计算外,有时也会使用多头注意力机制,即在构建Transformer模型时也会将𝑄, 𝐾, 𝑉分割为多个子空间并行计算,从而得到数个注意力头𝑧并拼接,最后通过线性变换矩阵,将拼接结果变换为一个融合了所有注意力头信息的矩阵𝑧: 𝑖 ) 𝑊 𝑧 = 𝑀𝑢𝑙𝑡𝑖ℎ𝑒𝑎𝑑 (𝑄,𝐾,𝑉) = 𝐶𝑜𝑛𝑐𝑎𝑡 (𝑧,… …,𝑧 ℎ 𝑂 其中,每个注意力头𝒛独立学习不同子空间的特征表示,𝑊表示融合后的线性变换矩阵。 𝒊 𝑂 (2)多头注意力 将𝑄, 𝐾, 𝑉分割为多个子空间并行计算,最后拼接结果并通过线性层融合: ) 𝑊 𝑀𝑢𝑙𝑡𝑖ℎ𝑒𝑎𝑑 (𝑄,𝐾,𝑉) = 𝐶𝑜𝑛𝑐𝑎𝑡 (ℎ𝑒𝑎𝑑,… …,ℎ𝑒𝑎𝑑 ℎ 𝑂 每个注意力头独立学习不同子空间的特征表示。其中,𝑊是融合后的线性变换矩阵。 𝑂 (3)前馈网络与残差连接 自注意力输出经过前馈网络(含𝑅𝑒𝐿𝑈激活)和层归一化(𝐿𝑎𝑦𝑒𝑟𝑁𝑜𝑟𝑚),并通过残差连接缓解梯度消失问题。算式如下,其中,𝑆𝑢𝑏𝑙𝑎𝑦𝑒𝑟 (𝑥)指当前子层(自注意力层或前馈层)输出(如前述提及的𝑧) 𝑂𝑢𝑡𝑝𝑢𝑡 = 𝐿𝑎𝑦𝑒𝑟𝑁𝑜𝑟𝑚(𝑥 + 𝑆𝑢𝑏𝑙𝑎𝑦𝑒𝑟(𝑥) ) 上述提及的𝑅𝑒𝐿𝑈函数可以通过将负输入置零并保留正输入,提升网格的稀疏性与泛化能力,并促进计算高效性,其算式如下: 𝑅𝑒𝐿𝑈 (𝑥) = 𝑚𝑎𝑥(0,𝑥) 1.2图注意力网络(GAT)模型 图注意力网络(Graph Attention Net work, GAT)是一种基于图结构的深度学习模型。 相较于传统的GCN网络,GAT引入了动态的注意力学习机制,可以在学习过程中自适应的调整节点间的影响强度,从而捕捉特征间非显性的相关关系。此外,共享注意力矩阵的设计及动态的权重分配方式使得GAT模型能处理节点与边关系动态变化的图模型,从而更好适应股票市场中不断变化的个股关系,并实现对新增个股的预测。 GAT的核心是通过注意力系数聚合邻居节点信息。对于节点i和其邻居j,注意力系数计算如下: (1)特征变换 对节点特征ℎ和ℎ进行线性变换: 𝑖 𝑗 ̃ ̃ ℎ= 𝑊ℎ,ℎ= 𝑊ℎ 𝑖 𝑖 𝑗 𝑗 其中,h和h是节点特征向量,W是一个共享参数矩阵,其效果为对节点特征向量进行 i j ̃ ̃ 增维处理,从而实现特征增强;h和h则是变换后的节点特征向量。 i j (2)注意力得分 使用共享参数𝑎计算节点对的注意力得分,并通过𝐿𝑒𝑎𝑘𝑦𝑅𝑒𝐿𝑈激活: 𝑇 ̃[ℎ ̃||ℎ ]) 𝑒= 𝐿𝑒𝑎𝑘𝑦𝑅𝑒𝐿𝑈(𝑎 𝑖𝑗 𝑖 𝑗 上述公式将两个维度为(n,1)的列向量拼接形成(2n,1)的高维向量,而共享参数向量𝑎则进一步将拼接后的高维特征映射到一个实数上,从而得到初步的注意力得分。LeakyReLU函数的效果则是在ReLU函数的基础上,对负值输入赋予微小斜率(如0.01),避免神经元“死亡”,缓解梯度消失问题,同时保持非线性表达能力,其具体表达式如下: x if x≥0 LeakyReLU(x) = { αx if x < 0 (3)归一化权重 对邻居节点的注意力得分进行𝑠𝑜𝑓𝑡𝑚𝑎𝑥归一化: 𝑒𝑥𝑝(𝑒)𝑒𝑥𝑝(𝑒 𝑖𝑗 𝛼= 𝑖𝑗 ∑ ) 𝑘∈𝑁(𝑖) 𝑖𝑘 其中,𝑁(𝑖)是节点i的所有邻居居节点组成的集合。通过将节点i所有邻居节点的e输入softmax函数,我们实现了其所有邻居节点间注意力得分的归一化,从而得到了最终的注意力系数。 ij (4)特征聚合 加权求和邻居节点特征作为当前节点的新表示: ́ ̃𝛼ℎ ) ℎ= 𝜎 (∑ 𝑖 𝑖𝑗𝑗 𝑗∈𝑁(𝑖) ́ 其中,𝜎表示激活函数,而h就是节点𝑖的融合了其邻域信息的新特征,至此便完成了一轮节点特征的计算。 i 图3:图注意力机制示意 图4:节点信息聚合过程 1.3物理信息神经网络(PINN)模型 物理信息神经网络(Physics-Informed Neural Net works, PINNs)通过将物理定律(如市场均衡方程、波动率模型)嵌入损失函数,增强模型对金融动力学规律的拟合能力,适用于衍生品定价、风险因子挖掘等场景。PINNs的损失函数包含数据拟合项和物理约束项: (1)数据驱动损失 监督模型输出与历史数据的误差: 𝑁 1= ∑‖𝑦𝑁 ‖ 𝐿 − 𝑦̂ 𝑑𝑎𝑡𝑎 𝑖 𝑖 𝑖=1 其中𝑦表示实际值,𝑦̂表示模型预测值 𝑖 𝑖 (2)物理约束损失 强制模型满足偏微分方程(如Black-Scho