量化专题报告 证券研究报告|金融工程研究 2024年06月15日 提升AI模型边际效能:图注意力网络与特征集成 在报告《基于深度学习的指数增强策略》中,我们提出了增强AI选股模型绩效的3个思路: 1.对同一模型构建差异化数据集输入,堆叠多数据集的输出; 2.通过调整超参数选取、标签构建、数据预处理方式等精进单一模型; 3.对同一数据集根据不同模型训练,堆叠多模型的输出; 我们在之前研究中重点讨论了前两者,本文围绕第三个思路展开,探讨如何基于同一数据集,在不同模型下训练并堆叠因子输出,以提升模型效能。 多维度提升AI选股模型绩效 首先,我们在时序神经网络中引入图结构网络,以此刻画股票之间的关联,该空间信息的引入增强了单一数据集的预测能力; 其次,我们在原有基础数据集之外引入手工构建的量价和基本面特征集合,手工特征集显著捕获了端对端模型之外的增量Alpha信息; 最后,在特征集成阶段,我们考虑数据输入、算法使用与标签设计等维度的多样性,综合构建集成模型,这进一步提高了模型的选股能力。 深度学习选股因子 基于多维度特征集合、集成算法与标签设计,我们得到深度学习选股因子,在回溯期2019年至2023年间,因子多头超额收益45.4%,5日IC均值为12.9%,10日IC均值达到14.7%。 指数增强组合 基于AI选股因子,我们构建周频调仓的中证500和中证1000指增组合: 1.2019至2023年,中证500指数增强组合相对中证500指数年化超额收益18.6%,跟踪误差5.5%,信息比率2.98; 2.2019至2023年,中证1000指数增强组合相对中证1000指数年化超额收益28.1%,跟踪误差6.4%,信息比率3.67。 风险提示:结论基于历史数据以及模型推算,存在失效风险。 作者 分析师缪铃凯 执业证书编号:S0680521120003邮箱:miaolingkai@gszq.com 分析师刘富兵 执业证书编号:S0680518030007邮箱:liufubing@gszq.com 相关研究 1、《量化点评报告:可转债正股退市风险加大——六月可转债量化月报》2024-06-11 2、《量化周报:中证500、深证成指、创业板指迎来日线级别下跌》2024-06-10 3、《量化分析报告:择时雷达六面图:资金面大幅弱化 2024-06-09 4、《量化分析报告:行业景气选股策略今年绝对收益 13%——基本面量化系列研究之三十二》2024-06-06 5、《量化点评报告:六月配置建议:寻找具有微观优势的品种》2024-06-04 请仔细阅读本报告末页声明 内容目录 一、AI选股模型3 二、数据与网络4 2.1数据输入4 2.2网络结构5 三、因子信号7 3.1基础数据集7 3.2手工特征数据集8 四、特征集成10 �、指增策略13 5.1中证500指数增强13 5.2中证1000指数增强14 �、总结15 风险提示16 图表目录 图表1:中证500指增(80%成分权重下限)3 图表2:中证1000指增(80%成分权重下限)3 图表3:AI选股模型结构3 图表4:图注意力机制6 图表5:基础数据集因子相关性7 图表6:基础数据集因子绩效7 图表7:alpha158因子分类8 图表8:手工特征集因子相关性9 图表9:apha158因子绩效9 图表10:fundamental因子绩效9 图表11:特征合并示意图10 图表12:LSTM因子集合集成绩效11 图表13:LSTM-GAT因子集合集成绩效11 图表14:加入手工数据后因子绩效12 图表15:多次集成因子绩效12 图表16:中证500指数增强组合净值13 图表17:中证500指数增强组合收益13 图表18:中证1000指数增强组合净值14 图表19:中证1000指数增强组合收益14 一、AI选股模型 在《基于深度学习的指数增强策略》报告中,我们提出以下思路以提升AI选股模型绩效: 1.对同一模型构建差异化数据集输入,堆叠多数据集的输出; 2.通过调整超参数选取、label构建、数据预处理方式等精进单一模型; 3.对同一数据集根据不同模型训练,堆叠多模型的输出; 在之前的研究中,我们重点讨论了思路1,构建多样化的特征集作为网络输入;此外,对于思路2,我们对网络结构、损失函数、模型架构的差异进行了分析。 图表1:中证500指增(80%成分权重下限)图表2:中证1000指增(80%成分权重下限) 1.2 1.2 1.1 1.1 1.0 0.9 0.80.7 组合中证500相对强弱 1.0 0.9 0.8 0.70.6 组合中证1000相对强弱 资料来源:wind,国盛证券研究所资料来源:wind,国盛证券研究所 据此构建的中证500和中证1000指数增强组合,今年样本外表现突出,截至2024-05- 31日组合超额收益分别达到10.1%和8.2%。因此,本文将进一步深化思路3的想法,探讨如何将同一数据集在不同模型下的训练输出有效堆叠,以提升模型边际效能。 portfolio feature engineering ensemble model datafeaturefactor model optimize 图表3:AI选股模型结构 资料来源:国盛证券研究所绘制 对于AI模型在多因子选股策略中的应用,我们专注于两个方向:特征工程和特征集成。基于此,本文将具体探索以下三个维度: 1.股票的空间信息:时序类网络更多关注股票量价信息在时间维度的变化,我们引入图网络结构提取股票之间截面比较的空间信息; 2.手工特征的引入:基于端到端建模,我们直接将原始数据输入模型提取因子特征,而手工设计精细化因子(基本面/量价)可能包含额外有价值的信息; 3.多维度特征集成:对于多网络结构输出的多维度特征集合,我们讨论如何从多样化数据输入、多集成算法、多类型标签、多预测窗口等维度集成特征。 二、数据与网络 2.1数据输入 我们依据不同数据源构建特征集合独立训练神经网络模型。数据集1到5为本文基础数 据集合,在前序报告中已经介绍;我们引入新数据集6和7,其中数据集6为量价因子 集,数据集7为基本面因子集。 1)数据集:日K线 数据特征:开盘价、最高价、最低价、收盘价、均价、成交量、成交额 数据预处理: 1.数据滚动30日窗口取日K线数据构建数据集,数据序列长度为30; 2.价格数据先除以最新收盘价标准化,成交量/额数据除以序列均值标准化。 2)数据集:分钟K线 数据特征:开盘价、最高价、最低价、收盘价、均价、成交量、成交额 数据预处理: 1.数据滚动20日窗口取2小时分钟线数据构建数据集,数据序列长度为40; 2.价格数据先除以最新收盘价标准化,成交量/额数据除以序列均值标准化。 3)数据集:日内收益分布 数据特征:开盘收益率、早盘/尾盘收益率、日内最高/最低收益率、日内平均收益率 数据预处理: 1.以30分钟K线将每日行情拆成8个窗口,并计算窗口内股票收益率; 2.基于8个收益率特征计算股票在日内的收益分布特征,序列长度为30。 4)数据集:资金流 数据特征:特大单、大单、中单、小单买入/卖出金额 数据预处理 1.将各类型资金流金额除以当日成交总额得到比例值; 2.数据滚动30日窗口取数据构建数据集,数据序列长度为30。 5)数据集:技术特征 数据特征:日收益率、换手率、非流动冲击、振幅等基础量价特征信息 数据预处理 1.基于原始行情数据预处理后因得到常用技术指标; 2.数据滚动30日窗口取数据构建数据集,数据序列长度为30。 6)数据集:alpha158数据特征:量价因子 数据预处理 以alpha158因子集为数据源,基于谱聚类算法聚类,数据序列长度为30。 7)数据集:fundamental数据特征:基本面因子 数据预处理 以常用基本面因子为数据源,信息为截面信号,数据序列长度为1。 2.2网络结构 在先前的研究报告中,我们采用了LSTM结合自注意力机制的结构,从股票的量价数据中有效提取了时序特征。LSTM(长短期记忆网络)作为RNN(循环神经网络)的一种,它在处理股票时间序列信息方面表现出色,能够捕捉到关键的时序动态。 然而,在实际的投资决策中,除了单只股票的时间序列信息外,股票之间的截面关联同样蕴含着至关重要的信息。为了捕捉这种股票间的相互关系,我们引入了图注意力网络GAT(GraphAttentionNetwork)1。GAT是一种图神经网络,它通过注意力机制来编码股票之间的复杂截面关系,从而为我们提供了一个全面的视角来分析和预测市场动态。 通过结合LSTM的时序分析能力和GAT的截面关联捕捉能力,我们的模型能够更全面地理解股票市场的行为,为投资决策提供更为深入和精确的洞察。 因此,在本研究中我们构建了一个结合了时序分析和图结构分析的复合模型,以全面捕捉股票市场的特征。LSTM模型来处理每个样本在时间维度上的迭代,其能够记住长期依赖关系,但并不涉及样本数据间的交互。将LSTM的输出接入自注意力机制捕捉序列内部的依赖关系,再接入图注意力网络GAT够捕捉不同股票之间的相互关联。 我们具体的网络结构如下: LSTM->selfattention->GAT->MLP 1)LSTM 2)selfattention ℎ𝑖𝑑𝑑𝑒�=𝐿𝑆𝑇𝑀(𝑖𝑛𝑝𝑢𝑡) 3)GAT 𝑎𝑡�=𝑠𝑒𝑙�𝑎𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛(ℎ𝑖𝑑𝑑𝑒𝑛) 𝑔𝑎𝑡_𝑜𝑢𝑡𝑝𝑢�=𝐺𝐴𝑇([𝑎𝑡𝑡,ℎ𝑖𝑑𝑑𝑒𝑛−1],𝑎𝑑𝑗) 4)MLP 𝑜𝑢𝑡𝑝𝑢�=𝑀𝐿𝑃(𝑔𝑎𝑡_𝑜𝑢𝑡𝑝𝑢𝑡) 其中input为模型输入,MLP之后得到output为网络模型输出,其为N*F为矩阵,对于任意时间点的N只股票,我们输出维度为F的因子集合;[]符号表示矩阵concat操作,下标表示在时间维度取索引,adj为图网络中的股票邻接矩阵。 此外,考虑到数据集7主要为截面信息,它并不涉及时间序列的变化,因此无需通过LSTM网络进行时序特征的提取。我们选择直接从步骤3)开始处理这些数据,将截面信息作为输入,直接送入图模型GAT进行分析。 在神经网络的训练过程中,我们遵循以下步骤: 1.滚动训练策略:我们采用滚动训练方法,每年更新模型,使用过去8年的历史数据作为训练基础,确保模型能够适应时间序列的变化; 2.数据时间序列拆分:我们将数据集按照时间顺序进行划分,将最后10%的数据保留作为验证集,用于评估模型的泛化能力,而其余数据则用于训练模型; 3.按日拆分训练批次:在训练过程中,我们按照日为单位将数据拆分为不同的批次,确保每批次输入网络的样本来自同一时间点; 4.早停机制:为了预防模型训练过程中的过拟合现象,我们引入了早停机制。该机制会在验证集上的性能不再提升时停止训练,从而保证模型的泛化性能。 1VelikoviP,CucurullG,CasanovaA,etal.GraphAttentionNetworks[J].2017.DOI:10.48550/arXiv.1710.10903. 对于图注意力网络GAT,我们将股票视为图的节点,N个节点的F维特征表示为:ℎ= [ℎ⃗,ℎ⃗,ℎ⃗,…,ℎ⃗],ℎ⃗ ∈𝑅𝐹,通过线性变化�∈𝑅𝐹𝘍×�得到N个节点的𝐹′维特征表示ℎ′。 123�� 对于ℎ⃗′,ℎ⃗′而言,通过共享注意力机制𝛼:𝑅𝐹� 𝐹� ,我们得到节点i对于节点j �� ×� −>� 的影响:𝑒𝑖�=𝛼(𝑊ℎ⃗𝑖,𝑊ℎ⃗𝑗)。 将目标节点与所有邻居节点算出权值之后做𝑠𝑜𝑓𝑡𝑚𝑎�归一化:𝑎𝑖�=𝑠𝑜𝑓𝑡𝑚𝑎𝑥𝑗(𝑒𝑖𝑗),最终每个节点的输出ℎ⃗′=𝜎(∑𝑗∈�𝑎𝑖𝑗𝑊ℎ⃗𝑗),其中𝑁�是与节点i连通的节点集