请阅读最后一页免责声明及信息披露http://www.cindasc.com1 深度学习揭秘系列之一 基于量价与基本面结合的深度学习选股策略 2024年8月6日 于明明金融工程与金融产品首席分析师执业编号:S1500521070001 联系电话:+8618616021459 邮箱:yumingming@cindasc.com 周金铭金融工程与金融产品分析师执业编号:S1500523050003 联系电话:+8618511558803 邮箱:zhoujinming@cindasc.com 孙石金融工程与金融产品分析师执业编号:S1500523080010 联系电话:+8618817366228 邮箱:sunshi@cindasc.com 证券研究报告金工研究 金工专题报告 于明明金融工程与金融产品首席分析师 执业编号:S1500521070001联系电话:+8618616021459 邮箱:yumingming@cindasc.com 周金铭金融工程与金融产品 分析师 执业编号:S1500523050003联系电话:+8618511558803 邮箱:zhoujinming@cindasc.com 孙石金融工程与金融产品 分析师 执业编号:S1500523080010联系电话:+8618817366228 邮箱:sunshi@cindasc.com 信达证券股份有限公司 CINDASECURITIESCO.,LTD 北京市西城区宣武门西大街甲127金隅大厦B座 邮编:100031 深度学习揭秘系列之一:基于量价与基本面结合的深度学习选股策略 2024年8月6日 本文是深度学习揭秘系列报告第一篇。因此本文从基础的神经网络理论部分入手,介绍了神经元结构、Relu、Sigmoid等常用激活函数、反向传播算法,以及后文中用到的Adam优化器与Dropout层。 非线性模型更能挖掘量价因子的潜力。本文以开源Alpha158作为量价因子集,以及常见的估值、成长、质量、分析师一致预期等因子作为基本面因子集进行基础研究,采用线性模型Lasso和非线性模型MLP分别对量价与基本面因子进行合成。结果显示,非线性MLP模型相较于线性Lasso模型在量价因子上优势较明显,MLP模型的5日RankIC较Lasso模型提升1.82pct,费后多头超额收益提升9.42pct;20日RankIC较Lasso提升1.94pct,费后多头超额收益提升6.54pct。但非线性模型的优势在基本面因子上不突出,MLP模型长期表现与Lasso模型几乎持平。我们认为可能有几个原因:1)基本面因子之间结合的逻辑偏线性,而量价因子的非线性组合可能包含增量信息。2)部分基本面因子在财报真空期值不变,而标签Y却每天有变动。3)基本面因子数量相较于量价因子偏少。 端到端的分支网络结合量价与基本面更具优势。前文我们用全连接神经网络分别结合了量价与基本面因子,但如何进一步将量价因子与基本面因子相结合是我们关心的另一方面。我们从基础的线性结合方式入手,尝试等权结合与ICIR加权结合前文神经网络拟合的量价与基本面因子,结果表明线性结合的因子较难战胜纯量价因子。5日纯量价因子的RankIC为12.39%,纯基本面因子RankIC为7.32%,等权因子RankIC为11.64%,ICIR加权因子RankIC为12.37%。因此我们更进一步,采用分支网络端到端计算量价与基本面的子因子合成,以及量价与基本面因子的权重生成。结果显示,5日分支网络合成因子RankIC为12.9%,相较于原始量价因子提升0.51pct,多头超额年化收益为10.85%,提升2.54pct,多空超额年化收益为132.21%,提升9.77pct。在20日的维度同样也优于其他合成方式。 基于长短期收益预测的混频组合。5日因子对短期收益的预测效果更好,而20日因子对长期收益的预测能力更佳。因此我们以20日因子的多头组合为底仓,与5日因子排名靠前的股票取交集进行高频调整。与前25%的5日因子取交集,多头超额提升6.98pct,与前50%取交集提升4.79pct,与前75%取交集提升3.26pct。且交集股票范围越小,换手越高,因此这是一个以提高换手率获取更高收益的组合思路。另外,我们发现混频组合的最大回撤会更接近于底仓20日组合的最大回撤,因此提高了收益的同时最大回撤并无显著增加。 基于低频量价、高频量价、基本面因子的中证1000指增策略。在20日调仓的换手下,限制100%指数成分股内选股,个股权重最大偏离0.5%,行业最大偏离3%,风格最大偏离0.01的约束条件,中证1000指增组合2015年至2024年5月31日年化收益为11.59%,年化信息比为3.56,单边年化换手率7.61。相对中证1000全收益的年化超额收益为13.17%,收益波动比为3.77,收益回撤比为5.06。今年超额收益为3.73%。 风险因素:结论基于历史数据,在市场环境转变时模型存在失效的风险。 目录 一、深度学习理论5 1.1、神经元与激活函数5 1.2、前馈神经网络拟合能力较强6 1.3、前馈神经网络的反向传播算法8 1.4、学习率调整算法Adam9 1.5、丢弃法(Dropout)10 二、LassoVsMLP——分别用于量价与基本面因子11 2.1、量价因子数据集11 2.2、基本面因子数据集13 2.3、数据预处理与网络参数设置15 2.4、LassoVsMLP——量价因子17 2.5、LassoVsMLP——基本面因子19 2.6、全连接网络隐藏层神经元数量设置的敏感性分析与启示21 2.7、小结:非线性模型更能挖掘量价因子的潜力23 三、量价与基本面因子结合的初步尝试26 3.1、线性方式——等权结合27 3.2、线性方式——ICIR加权28 3.3、非线性方式——输入层拼接量价与基本面30 3.4、非线性方式——分支网络统筹子因子合成与大类因子加权32 3.5、小结:端到端的分支网络结合量价与基本面更具优势34 四、基于长短期收益预测的混频组合38 五、基于低频量价、高频量价、基本面因子的中证1000指增策略41 参考文献43 风险因素44 表目录 表1:Alpha158因子列表11 表2:基本面因子列表13 表3:各模型全区间IC统计—量价因子预测未来5日与20日18 表4:各模型全区间多头超额与多空超额收益风险特征指标—量价因子18 表5:各模型全区间IC统计—基本面因子预测未来5日与20日20 表6:各模型全区间多头超额与多空超额收益风险特征指标—基本面因子20 表7:一层的全连接神经网络不同神经元数量下合成因子效果21 表8:两层的全连接神经网络不同神经元数量下合成因子与Lasso因子的相关性21 表9:两层的全连接神经网络不同神经元数量下合成因子的RankIC均值22 表10:两层的全连接神经网络不同神经元数量下合成因子的ICIR22 表11:量价因子+MLP多头超额绩效指标—每5日调仓24 表12:基本面因子+MLP多头超额绩效指标—每5日调仓24 表13:量价因子+MLP多头超额绩效指标—每20日调仓25 表14:基本面因子+MLP多头超额指标—每20日调仓25 表15:量价、基本面与等权因子IC统计27 表16:量价、基本面与等权因子多头超额与多空超额收益风险特征指标27 表17:量价、基本面与ICIR加权因子IC统计28 表18:量价、基本面与ICIR加权因子多头超额与多空超额收益风险特征指标29 表19:量价、基本面与输入层拼接因子IC统计31 表20:量价、基本面与输入层拼接因子多头超额与多空超额收益风险特征指标31 表21:量价、基本面与分支网络因子IC统计33 表22:量价、基本面与分支网络因子多头超额与多空超额收益风险特征指标33 表23:量价、基本面与各合成方法IC统计—5日34 表24:量价、基本面与各合成方法多头超额与多空超额收益风险特征指标—5日34 表25:量价、基本面与各合成方法IC统计—20日35 表26:量价、基本面与各合成方法多头超额与多空超额收益风险特征指标—20日35 表27:分支网络合成因子多头超额绩效指标—每5日调仓37 表28:分支网络合成因子多头超额绩效指标—每20日调仓37 表29:原始20日合成因子与混频组合分年度多头超额38 表30:原始20日合成因子∩5日因子前50%多头超额收益39 表31:原始20日合成因子∩5日因子前75%多头超额收益40 表32:中证1000指增组合多头收益风险特征指标42 表33:中证1000指增组合超额收益风险特征指标42 图目录 图1:单个神经元结构5 图2:Sigmoid型函数与ReLU函数6 图3:多层前馈神经网络7 图4:Dropout示意图10 图5:回测路径合并方式示意图16 图6:全连接神经网络——Alpha15817 图7:各模型累计RankIC—量价因子预测未来5日18 图8:各模型累计RankIC—量价因子预测未来20日18 图9:全连接神经网络——基本面因子19 图10:各模型累计RankIC—基本面因子预测未来5日20 图11:各模型累计RankIC—基本面因子预测未来20日20 图12:量价因子+MLP多头超额—每5日调仓24 图13:基本面因子+MLP多头超额—每5日调仓24 图14:量价因子+MLP多头超额—每20日调仓25 图15:基本面因子+MLP多头超额—每20日调仓25 图16:量价、基本面与等权因子累计RankIC27 图17:量价、基本面与等权因子多头超额收益27 图18:量价、基本面与等权因子多空超额收益27 图19:5日量价合成因子与5日基本面合成因子ICIR28 图20:量价合成因子与基本面合成因子ICIR占比28 图21:量价、基本面与ICIR加权因子累计RankIC28 图22:量价、基本面与ICIR加权因子多头超额收益29 图23:量价、基本面与ICIR加权因子多空超额收益29 图24:量价因子输入层拼接基本面因子的全连接神经网络结构图30 图25:量价、基本面与输入层拼接因子累计RankIC31 图26:量价、基本面与输入层拼接因子多头超额收益31 图27:量价、基本面与输入层拼接因子多空超额收益31 图28:量价因子与基本面因子的分支全连接神经网络结构图32 图29:量价、基本面与分支网络因子累计RankIC33 图30:量价、基本面与分支网络因子多头超额收益33 图31:量价、基本面与分支网络因子多空超额收益33 图32:量价、基本面与各合成方法累计RankIC—5日34 图33:量价、基本面与各合成方法多头超额收益—5日34 图34:量价、基本面与各合成方法多空超额收益—5日34 图35:量价、基本面与各合成方法累计RankIC—20日35 图36:量价、基本面与各合成方法多头超额收益—20日35 图37:量价、基本面与各合成方法多空超额收益—20日35 图38:Alpha158因子、高频量价因子与基本面因子的分支全连接神经网络结构图36 图39:分支网络合成因子多头超额—每5日调仓37 图40:分支网络合成因子多头超额—每20日调仓37 图41:原始20日合成因子与混频组合多头超额净值38 图42:混频策略相对于缩减成分股的原始20日组合的超额收益39 图43:原始20日合成因子∩5日因子前50%多头超额净值39 图44:原始20日合成因子∩5日因子前75%多头超额净值40 图45:20日因子在中证1000域中累计RankIC41 图46:中证1000指增组合及其超额收益42 一、深度学习理论 伴随着数据量的与日俱增以及计算能力的大幅提升,深度学习模型近年来发展十分迅速,在图像识别、语音识别、自然语言处理等多个领域不断取得突破。 人工神经网络是通过模仿人脑神经网络系统构造与功能而设计的计算模型,简称神经网络。与生物神经元类似,神经网络由多个节点(人工神经元)相互连接而成。 1.1、神经元与激活函数 神经元是组成神经