请阅读最后一页免责声明及信息披露http://www.cindasc.com1 深度学习揭秘系列之二: 涵盖价量与基本面因子的多模型结合神经网络 2024年10月30日 于明明金融工程与金融产品首席分析师执业编号:S1500521070001 联系电话:+8618616021459 邮箱:yumingming@cindasc.com 周金铭金融工程与金融产品分析师执业编号:S1500523050003 联系电话:+8618511558803 邮箱:zhoujinming@cindasc.com 信达证券股份有限公司 CINDASECURITIESCO.,LTD 北京市西城区宣武门西大街甲127号金隅大厦B座 邮编:100031 周金铭金融工程与金融产品 分析师 执业编号:S1500523050003联系电话:+8618511558803 邮箱:zhoujinming@cindasc.com 金工专题报告 于明明金融工程与金融产品首席分析师 执业编号:S1500521070001联系电话:+8618616021459 邮箱:yumingming@cindasc.com 金工研究 证券研究报告 深度学习揭秘系列之二:涵盖价量与基本面因子的多模型结合神经网络 2024年10月30日 本文是深度学习揭秘系列报告第二篇。本文先以量价因子Alpha158与基本面因子为特征,全连接神经网络为测试对象,从模型的输入端入手,讨论了量价因子与基本面因子对原始收益的预测效果,以及在预测中性化收益率的场景下,不同输入形式与输出处理方式的特点。其次,本文研究通过参数遍历的方式,对比了时序神经网络相对全连接神经网络的优劣,研究了时序神经网络的参数设置规律,以及时序神经网络对量价因子和原始行情数据的拟合及预测效果。 以量价因子原始值建模预测中性化收益,在因子IC与组合收益上有损,但模型能学习到市值与行业的波动。在预测中性化收益的场景下,本文对比了不同的输入三种方式。(1)以原始值为特征,原始收益率为标签,中性化模型预测值。(2)以中性化值为特征,中性化收益率为标签,直接输出预测值。(3)以中性化值为特征,中性化收益率为标签,再中性化模型预测值。综合对比发现,第一种方法的预测值RankIC与多头组合超额收益略低于第二种方式;但第一种方式的超额收益波动率与最大回撤每年均值优于第二种方式;第二种方式的RankIC与第三种方式相差不大。 基本面因子存在中性化预处理的必要。直接将基本面因子原始值输入神经网络模型,我们发现预测原始收益的RankIC相对较低,预测中性化收益的RankIC也显著低于输入端经过中性化预处理的基本面因子。因为不同行业的基本面因子存在中枢的差距,因此我们认为基本面因子在输入神经网络前需要进行中性化处理。 基本面因子的中性化收益预测能力能补充量价因子的原始收益预测能力。在预测原始收益的场景下,本文对比了量价因子原始值与基本面因子原始值非线性结合,和量价因子原始值与基本面因子中性化值非线性结合,两种方式的预测效果。对比发现,因为基本面因子原始值预测原始收益率效果相对较弱,因此相对纯量价因子组合的增强效果不明显,而中性化后的基本面因子能增强原始量价因子的绝对收益预测效果。 将时序神经网络用于单日量价因子,而全连接神经网络用于窗口期量价因子,是预测效果,算力消耗与显存占用间较均衡的选择。本文通过参数遍历的方式,将量价因子Alpha158全部输入MLP的预测效果,同将量价因子全部输入RNN或者GRU模型的预测效果进行了对比,发现这种时序神经网络应用方式无法稳定战胜MLP,且对参数较敏感。因此本文采用将Alpha158中的单日因子用时序神经网络拟合后,与窗口期因子拼接,再一起经过MLP模型训练,发现这种应用方式稳定优于纯MLP模型,且能够总结一些隐藏单元参数和特征步长参数的经验设置方式。 时序神经网络也可拟合原始行情数据。本文也将时序神经网络用于拟合原始高开低收均价成交额成交量等原始行情数据,行情合成因子2014年以来RankIC均值在9%左右,与Alpha158单日因子合成值的相关性为0.6。在隐藏单元数设置上,相较于人为加工过的单日选股因子,拟合原始行情数据的时序神经网络隐藏单元设置的更多一些,方能取得较理想的预测效果。 低频量价+高频量价+基本面因子+行情的多模型组合。基于以上研究结论,打造了输入端覆盖低频价量、高频价量、基本面因子与行情数据,包含全连接与GRU神经网络的多模型组合。通过研究该网络的预测区间与调仓频率的关系,发现网络预测效果主要集中在调仓后的初期阶段,因此我们合成了5日因子与20日因子得到了混频因子。通过该因子构建的行业轮动组合年化多头超额11.36%,中证1000指增组合年化超额16.21%。 风险因素:结论基于历史数据,在市场环境转变时模型存在失效的风险。 目录 深度学习揭秘系列之二:涵盖价量与基本面因子的多模型结合神经网络5 一、因子集、预处理与组合构建方式6 1.1、量价因子数据集6 1.2、基本面因子数据集8 1.3、数据预处理与网络参数设置10 1.4、训练集、验证集与测试集的数据处理10 1.5、全A选股组合回测参数与方式11 1.6、路径依赖与路径合并11 二、3种中性化收益率建模方式对比12 2.1、量价因子:以原始值建模IC与收益有损,但组合风险端更佳13 2.2、基本面因子:中性化处理的必要性15 2.3、再谈量价与基本面结合17 三、时序神经网络的应用与参数探秘20 3.1、MLPVsRNNVsGRU——量价因子20 3.1、RNN与GRU——行情数据24 四、低频量价+高频量价+基本面因子+行情的多模型组合28 4.1、四分支多模型神经网络28 4.2、预测区间与调仓频率的关系31 4.3、深度学习行业轮动组合35 4.4、中证1000指增组合36 风险因素38 表目录 表1:Alpha158因子列表6 表2:基本面因子列表8 表3:输入与输出处理方式及对应编号12 表4:不同输入与输出处理方式下,量价因子预测值RankIC均值与ICIR13 表5:不同输入与输出处理方式下,量价因子组合多头超额收益与风险14 表6:不同输入与输出处理方式下,基本面因子预测值RankIC均值与ICIR16 表7:不同输入与输出处理方式下,基本面因子组合多头超额收益与风险16 表8:叠加基本面因子组合与纯量价组合的IC统计19 表9:叠加基本面因子组合与纯量价组合的多头超额绩效指标19 表10:MLP模型不同神经元数量下量价因子RankIC均值20 表11:MLP模型不同神经元数量下量价因子多头超额收益20 表12:RNN与GRU不同参数设置下量价因子RankIC均值21 表13:RNN与GRU不同参数设置下量价因子多头超额收益21 表14:RNN与GRU不同参数设置下单日量价因子RankIC均值22 表15:RNN与GRU不同参数设置下单日量价因子多头超额收益22 表16:RNN与GRU不同参数设置下单日量价因子+MLP窗口期量价因子RankIC均值23 表17:RNN与GRU不同参数设置下单日量价因子+MLP窗口期量价因子多头超额收益24 表18:RNN与GRU不同参数设置下原始行情数据RankIC均值25 表19:RNN与GRU不同参数设置下原始行情数据多头超额收益26 表20:原始行情GRU中性化因子的IC统计26 表21:原始行情GRU中性化组合多头超额绩效指标27 表22:5日合成因子IC统计29 表23:5日合成因子组合多头超额绩效指标29 表24:20日合成因子IC统计30 表25:20日合成因子组合多头超额绩效指标30 表26:不同预测区间与调仓频率下日均RankIC31 表27:不同预测区间与调仓频率下日均多头超额收益31 表28:不同预测区间与调仓频率下费后多头超额收益31 表29:不同预测区间与调仓频率下单边年化换手率31 表30:不同预测区间下因子相关性32 表31:混频因子5日IC统计33 表32:混频因子5日调仓组合多头超额绩效指标33 表33:混频因子20日IC统计34 表34:混频因子20日调仓组合多头超额绩效指标34 表35:行业轮动组合多头超额收益风险特征指标35 表36:行业轮动组合多空超额收益风险特征指标35 表37:中证1000指增组合多头收益风险特征指标37 表38:中证1000指增组合超额收益风险特征指标37 图目录 图1:预测未来5个交易日的均价收益率时,数据划分示意图11 图2:回测路径合并方式示意图11 图3:全连接神经网络——Alpha15813 图4:全连接神经网络——基本面因子15 图5:全连接分支神经网络——Alpha158+基本面18 图6:叠加基本面因子组合相对纯量价组合RankIC超额19 图7:叠加基本面因子的组合相对纯量价组合超额收益19 图8:原始量价因子+中性化基本面因子组合多头净值与多头超额净值19 图9:时序神经网络+全连接神经网络——Alpha15823 图10:时序神经网络+市值中性化——原始行情数据25 图11:原始行情GRU中性化因子累计RankIC26 图12:原始行情GRU中性化组合多头净值与多头超额27 图13:四分支多模型神经网络28 图14:5日合成因子累计RankIC29 图15:5日合成因子组合多头净值与多头超额29 图16:20日合成因子累计RankIC30 图17:20日合成因子组合多头净值与多头超额30 图18:混频因子累计5日RankIC33 图19:混频因子5日调仓组合多头净值与多头超额33 图20:混频因子累计20日RankIC34 图21:混频因子20日调仓组合多头净值与多头超额34 图22:行业轮动组合多头净值与多头超额35 图23:行业轮动组合多头净值与多空超额35 图24:中证1000指增组合及其超额收益37 深度学习揭秘系列之二:涵盖价量与基本面因子的多模型结合神经网络 在之前的报告《深度学习揭秘系列之一:基于量价与基本面结合的深度学习选股策略》中,我们对比了线性模型Lasso和基础非线性模型MLP,在输入量价因子和基本面因子的不同场景下,预测未来5个交易日或20个交易日市值行业中性化收益率的效果。 在初步研究过程中,我们发现了一些值得注意与可以进一步深入探讨的问题,例如: 1.训练集与验证集之间,验证集与测试集之间,需要留心的未来数据泄露问题。 2.在预测中性化收益率的场景下,“以原始(未经过市值行业中性化)量价与基本面因子为特征,以原始收益率排序百分位为标签,最后中性化处理模型输出的原始收益率预测值”和“以市值行业中性化的量价与基本面因子为特征,以中性化后的收益率排序百分位为标签,模型直接输出中性化收益率”有何区别,哪种方法更优? 3.在预测原始收益率的场景下,量价因子是否需要进行中性化处理,基本面因子是否也需要中性化?量价因子与基本面因子应如何有效结合? 4.更加先进的时序神经网络,如RNN和GRU,相较于MLP是否具有优势?这种优势在不同参数配置下是否稳定?对于不同的输入特征,是否有可借鉴的神经网络参数设置经验?时序神经网络能否学习股票的高开低收均价成交量成交额等原始行情数据以预测未来? 5.将已有的低频量价、高频量价、基本面因子与行情信息结合起来,预测效果如何?最终模型的预测区间与调仓频率又有着怎样的关系? 本篇报告在之前研究的基础上,针对以上问题,逐一进行分析。 一、因子集、预处理与组合构建方式 通常在股票收益预测的场景下,我们通过构建具有一定逻辑的选股因子,可以有效地提取出原始数据中的关键特征,进行降维处理,从而减少模型训练的复杂度和计算成本。选股因子是基于金融理论和实证研究构建的,量价因子能够对股票的价格走势和成交变化进行描绘,让模型能够学习不同量价情况下股票的收益分布特征,而基本面因子,例如EP、BP等则反映了公司估值水平,提供了量价维度外的另一个重要的视角。 1.1、量价因子数据集 我们采用Gi