ABCM:基于神经网络的alpha因子和 beta因子协同挖掘模型 ——因子选股系列之一一〇 研究结论 基于基本面的Barra模型中的风险因子往往考虑的是超长周期的风险,且模型中基本面信息占比相对量价信息更高,因此这种风险模型对于中高频策略可能力不从心。为了克服这些问题,我们提出了一套基于神经网络和量价数据驱动的风险因子生成模型,我们称之为ABCM(Alpha-BetaCo-mining)模型。 样本外各风险因子的表现: RankIC基本上都在3%以内、ICIR基本上都在0.2以内而RankIC胜率基本上都在 60%以内,意味着各个风险因子均不具有显著的选股能力; Abs(RankIC)均较高,说明各因子对未来收益率的解释能力较强; 自相关系数均在70%以上,说明短期来看各个风险因子衰减速度较弱;而各风险因子两两之间相关性基本上都在20%以内,信息独立性较强; 各个股票池上ABCM1&2风险因子滚动Rsquare曲线均稳定位于Barra风险因子上方,且相对于Barra风险因子,ABCM2风险模型Rsquare显著提升,在沪深300、中证500和中证全指上分别提升至47.02%、34.28%和20.53%。因此基于神经网络生成的风险模型对未来收益率的解释能力整体强于Barra风险模型。 样本外“伴生”的alpha因子的表现: 有着较强的获取超额收益的能力,2017年至今年化超额达36.55%。且该因子往年超额收益回撤仅有5.86%,且今年该因子最大回撤相对不大,这说明该因子能稳定的获取较高的超额。 今年三季度该alpha因子的多头表现较为稳定未出现大幅回撤,另外一方面该因子与各个Barra风险因子相关性较低,这说明通过ABCM模型生成alpha因子获取alpha信息的来源与常规机器学习生成的alpha因子差异性较大,与常规机器学习因子有着 较强互补性。 ABCM2模型生成的alpha因子对我们已有的AI量价模型生成alpha因子能够起到较大增量作用,通过把前者纳入到我们已有的AI量价模型中进行合成,新生成的alpha因子在中证全指、中证500和中证1000上RankIC分别提升至16.39%、11.94%和14.94%,多头年化超额分别提升至52.63%、26.46%和39.61%,在中证全指上RankICIR也提升至1.66,说明新因子获取alpha收益的能力更强,稳定性也更好。 风险因子用于组合优化的表现: 相对于使用Barra风险模型,将ABCM2风险模型生成的风险因子直接用于组合优化,新组合具有更高的信息比率,其中中证500增强组合由2.79提升至3.30,中证1000增强组合则由3.83提升至4.25。并且组合的年化超额以及超额最大回撤均有显著改善。 风险提示 1.量化模型基于历史数据分析,未来存在失效风险,建议投资者紧密跟踪模型表现。 2.极端市场环境可能对模型效果造成剧烈冲击,导致收益亏损。 金融工程|专题报告 报告发布日期2024年12月03日 杨怡玲yangyiling@orientsec.com.cn 执业证书编号:S0860523040002 陶文启taowenqi@orientsec.com.cn 执业证书编号:S0860524080003 相对定价类基本面因子挖掘:——因子选 2024-10-11 股系列之一〇九KD-Ensemble:基于知识蒸馏的alpha因 2024-08-19 子挖掘模型:——因子选股系列之一〇八融合基本面信息的ASTGNN因子挖掘模 2024-05-27 型:——因子选股系列之一〇四 有关分析师的申明,见本报告最后部分。其他重要信息披露见分析师申明之后部分,或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。 目录 一、引言4 1.1多因子选股策略4 1.2传统风险模型4 1.3机器学习风险模型5 二、基于AI的风险因子挖掘框架改进方案7 三、ABCM模型生成因子的表现8 3.1风险因子表现9 3.2生成的alpha因子表现12 3.3生成的因子相关性分析13 四、ABCM模型对alpha端的增量14 4.1中证全指上的表现14 4.2各宽基指数上的表现16 4.3因子风险暴露分析18 五、ABCM风险因子在指增上的应用19 5.1增强组合构建说明19 5.2沪深300指数增强19 5.3中证500指数增强21 5.4中证1000指数增强22 六、结论23 风险提示24 图表目录 图1:多因子选股策略框架4 图2:DFQ-Risk风险因子5 图3:风险因子生成模型6 图4:数据集1生成风险因子绩效表现(20170101~20240930)9 图5:数据集2生成风险因子绩效表现(20170101~20240930)9 图6:因子id0时序RankIC曲线和多空净值曲线(20170101~20240930)10 图7:因子id1时序RankIC曲线和多空净值曲线(20170101~20240930)10 图8:全市场风险因子滚动243日Rsquare(20180101~20240930)11 图9:沪深300风险因子滚动243日Rsquare(20180101~20240930)11 图10:中证500风险因子滚动243日Rsquare(20180101~20240930)11 图11:ABCM模型生成alpha因子的绩效表现(20170101~20240930)12 图12:ABCM模型生成alpha因子今年多头超额净值走势(20231229~20240930)12 图13:ABCM模型生成因子相关系数矩阵13 图14:ABCM模型数据集1上生成因子与Barra风险因子相关系数13 图15:ABCM模型数据集2上生成因子与Barra风险因子相关系数14 图16:中证全指选股汇总表现(回测期20171229~20240930)15 图17:中证全指因子各分组超额表现15 图18:各模型多头超额净值走势(20180101~20231231)15 图19:各模型多头超额净值走势(20231229~20241031)15 图20:中证全指各年度多头组合选股表现(回测期20171229~20241031)16 图21:各宽基指数上选股表现(回测期20180101~20241031)16 图22:今年沪深300多头超额走势(截至20241031)17 图23:今年中证500多头超额走势(截至20241031)17 图24:今年中证1000多头超额走势(截至20241031)17 图25:因子风险暴露时序曲线18 图26:沪深300指增组合分年度超额收益率(回测期20171229~20241031)20 图27:沪深300指增组合超额净值走势(20171229~20241031)20 图28:不同暴露倍数下各风险模型对应沪深300组合的信息比率20 图29:中证500指增组合分年度超额收益率(回测期20171229~20241031)21 图30:中证500指增组合净值走势(20171229~20241031)21 图31:不同暴露倍数下各风险模型对应中证500组合的信息比率21 图32:中证1000指增组合分年度超额收益率(回测期20171229~20241031)22 图33:中证1000指增组合净值走势(20171229~20241031)22 图34:不同暴露倍数下各风险模型对应中证1000组合的信息比率22 一、引言 1.1多因子选股策略 多因子选股策略是量化投资中的主流Alpha策略,它通过结合多个具有预测能力的因子来构建投资组合。多因子选股框架通常包括alpha模型、风险模型、交易成本模型和组合优化四个部分,整个多因子选股策略的框架可表示为下图所示的过程。其中alpha模型主要是对个股未来的收益率或特质性收益率在整体股票池中的排序进行预测,风险模型则是负责对个股之间的协方差矩阵进行估计,交易成本模型是对个股的交易成本进行预测,而组合优化则是在考虑交易成本的前提下,负责在给定风险(即组合的波动)下极大化预期收益从而构建组合,以期在样本外组合能有较好的风险收益比。 图1:多因子选股策略框架 数据来源:东方证券研究所绘制 这四个部分中alpha模型更加受到重视,近年来基于人工挖掘和机器学习相关的alpha因子挖掘方法层出不穷,前期报告《基于循环神经网络的多频率因子挖掘》、《基于残差网络端到端因子挖掘模型》和《融合基本面信息的ASTGNN因子挖掘模型》等报告中我们也对alpha因子生成提出了一系列基于机器学习的方案,此处就不再赘述了。但研究人员对于风险模型的研究则少之又少,在今年各类alpha模型遭受几轮较大回撤之后,风险模型在多因子选股体系下的作用显得尤为重要。 1.2传统风险模型 主流的风险模型主要分为两类,基本面主导的Barra风险模型和价格数据驱动的统计量风险模型,前者主要通过人工方法构建相应的风险因子从而建立模型,后者主要通过一些降维等数据分析的方法构建风险因子从而建立模型。研究人员通常使用的风险模型是Barra体系下的风险模型或者其的改进版本,例如报告《DFQ-Risk:东方A股因子风险模型》中所使用的十个风险因子构建如下图所示: 图2:DFQ-Risk风险因子 数据来源:东方证券研究所绘制 这套模型中的风险因子往往考虑的是超长周期的风险(自相关性过高,长时间内风险因子取值几乎不发生变化),且基本面信息占比相对量价信息更高,因此这种风险模型对于低频策略匹配度相对较高,但对于中高频策略可能显得力不从心。 与Barra风险模型对应的是统计风险模型,这个模型完全通过价格数据进行驱动,使用各个股票过去252个交易日的收益率序列计算相关系数矩阵或度量矩阵,之后使用PCA、谱聚类等方法进行降维,取相关系数矩阵前十大特征值(或主成分)对应特征向量作为风险因子,以谱聚类算法为例,假设各个股票过去252个交易日的收益率序列为𝒙𝟏,𝒙𝟐,⋯𝒙�,则主特征向量 𝒖𝟏,𝒖𝟐,⋯𝒖�为下列优化问题的非常解: � 𝑚𝑖𝑛𝒖𝑅(𝒙𝒊,𝒙𝒋)‖𝒖�−𝒖𝒋‖ 其中核函数𝑅(𝒙𝒊,𝒙𝒋)通常反比于数据点𝒙�和𝒙�之间的距离度量。而上述优化问题的解则可转化为求解矩阵�−�的主特征向量,这里 �=(𝑅(𝒙𝒊,𝒙𝒋))𝑖,𝑗,�=𝑑𝑖𝑎𝑔(∑𝑅(𝒙𝒊,𝒙𝒋)) � 该算法核心思想是使用数据之间构建的有限维的图Laplacian矩阵�−�及其特征向量来逼近数据分布的底层流形上的Laplacian算子及其特征函数,因为流形的Laplacian算子是其几何内蕴量,其特征函数空间可以张成整个流形上的非线性函数空间,因此图Laplacian矩阵的主特征向量可视作流形上的最佳逼近量,相关的实验研究表明这套风险模型相较于Barra模型有着更加优异的性能。 1.3机器学习风险模型 Alpha模型更多的是提升所构建组合的收益,而风险模型则对提升组合业绩稳定性起到重要作用。在有着强大alpha模型的基础上,我们有必要构建一套与之匹配的风险模型。而机器学习系列方法有着强大的拟合能力,其是否能够和生成alpha因子一样生成风险因子。首先,风险模型的关键在于构建相应的风险因子,我们认为风险因子应该满足以下性质: 1.没有显著的选股能力,即RankIC相对较低,对未来收益率预测的方向波动十分剧烈,即ICIR、RankIC胜率等指标较低。 2.对未来收益率有较强的解释能力(具有较强的线性相关性),体现在因子RankIC绝对值、Rsquare等指标相对较高。 3.因子衰减速度较慢,即因子跨期截面自相关性较高。 基于上述性质,在前期报告《融合基本面信息的ASTGNN因子挖掘模型》和《KD-Ensemble:基于知识蒸馏的alpha因子挖掘模型》中,我们借助RNN模型搭建了一套如下图所示的风险因子生成模型,整个模型结构如下图所示: