DFQ-FactorVAE:融合变分自编码器和概率动态因子模型的alpha预测方案 ——因子选股系列之一〇三 研究结论 FactorVAE模型架构 FactorVAE模型,来自国际人工智能会议AAAI2022。原论文中提出了一种新的基于变分自编码器的概率动态因子模型,以弥合噪声数据与有效因子之间的差距。本文在原论文基础上进行修改优化,所得选股因子在沪深300指数增强组合中表现优异。 FactorVAE模型融合了变分自编码器与概率动态因子模型的思想,建立股票收益率预测模型,学习输入特征和标签之间的关系:(1)采用变分自编码器的编码器-解码器架构,有助于模型学习到数据分布的结构,并且可以在潜在空间中生成新样本;(2) 金融工程|专题报告 报告发布日期2024年05月14日 杨怡玲yangyiling@orientsec.com.cn 执业证书编号:S0860523040002 刘静涵021-63325888*3211 liujinghan@orientsec.com.cn 执业证书编号:S0860520080003香港证监会牌照:BSX840 采用概率动态因子模型的思想,将因子作为VAE模型中的潜在变量,提取动态公共因子的分布,从而起到降维降噪的作用。(3)采用一种“前验-后验”的学习方法,将预测股票收益率的问题转化成预测有效因子,使用标签收益率指导模型提取有效因子。 DFQ-FactorVAE模型优势 DFQ-FactorVAE模型所得因子的稳定性、在沪深300股票池中的多头表现突出: (1)在中证全指股票池中,DFQ-FactorVAE模型所得到因子的稳定性明显最强,ICIR、RANKICIR、多头日超额收益夏普比均为最高。测试集(2020.01.01-2024.03.31)上rankic达到15%,rankicir达到1.38,20分组多头日度超额年化收益 率达到31.75%,多头日超额收益夏普比3.52,多头日度超额收益最大回撤8.28%,多头月度胜率88%,月均单边换手79%。分组单调性好。 (2)在沪深300股票池中,DFQ-FactorVAE模型所得到因子的多头表现明显最强。测试集上rankic达到10.6%,rankicir达到0.6,5分组多头日度超额年化收益率达到14.47%,多头日超额收益夏普比1.72,多头日度超额收益最大回撤6.74%,月均单边 换手54%。分组单调性好。分年表现上未出现明显衰减。 DFQ-FactorVAE模型所得因子稳定性突出,与模型的VAE架构和概率框架有关。 VAE架构有助于模型学习到数据分布的结构,样本外泛化能力更强。概率框架考虑到了风险建模,更适合含有噪声的股票收益率预测。 DFQ-FactorVAE模型所得因子在沪深300股票池中的多头表现突出,与模型的因子模型架构有关。先验因子对沪深300股票的解释度最高,平均能达到36.5%,其次为中证500成分股的27.95%,中证1000成分股的25.45%,全市场解释度最低,为 20.78%。 DFQ-FactorVAE模型在沪深300指增组合中的表现 DFQ-FactorVAE模型所得到的合成因子在沪深300指增组合中表现十分突出: (1)整体表现:2020年以来年化信息比达到2.55,年化对冲收益13.53%,年化跟踪误差5.03%,超额收益最大回撤仅为5.35%,单边年换手7.67倍。 (2)分年表现:2020-2023每年取得10%以上的正超额,2023年超额收益达16%。2024年前三个月超额收益为-0.36%。 (3)风格暴露:相对基准沪深300指数,组合在市值、信息确定性、成长维度具有明显的负向暴露,但在BETA、流动性、波动率、估值等维度都没有明显暴露。 (4)成分股约束:设置100%成分内选股增强,可以明显提高组合业绩表现稳定性。跟踪误差可以降低到4.37%,超额收益最大回撤降低到3.31%,最大回撤恢复仅需30 天,并且仍然可以获得超过10%的年化超额。 风险提示 1.量化模型失效风险。 2.极端市场环境对模型的影响。 基本面因子的重构:——因子选股系列之 一〇二 自适应时空图网络周频alpha模型:——因子选股系列之一〇一 DFQ-HIST:添加图信息的选股因子挖掘系统:——因子选股系列之一百 基于异构图神经网络的股票关联因子挖掘:——因子选股系列之九十九 DFQ-TRA:多交易模式学习因子挖掘系统:——因子选股系列之九十七 DFQ强化学习因子组合挖掘系统:——因子选股系列之九十五 DFQ遗传规划价量因子挖掘系统:——因子选股系列之九十 2024-03-21 2024-02-28 2024-02-07 2024-01-02 2023-11-14 2023-08-17 2023-05-28 有关分析师的申明,见本报告最后部分。其他重要信息披露见分析师申明之后部分,或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。 目录 一、模型概述5 1.1自编码器(AutoEncoder,AE)5 1.2变分自编码器(VariationalAuto-Encoder,VAE)5 1.3因子模型(FactorModel)6 1.4概率动态因子模型(ProbabilisticDynamicFactorModel)6 1.5FactorVAE6 二、模型架构7 2.1模型训练和预测过程7 2.2特征提取器8 2.3因子编码器9 2.4因子解码器10 2.5因子预测器11 三、模型说明12 3.1数据说明12 3.2模型输入12 3.3模型参数13 四、模型结果14 4.1运算用时14 4.2因子绩效表现14 4.3随机种子的影响21 4.4与其他量价模型相关性21 4.5中性化因子表现23 五、沪深300指数增强组合24 5.1指数增强组合构建说明24 5.2指数增强组合的业绩表现24 5.3指数增强组合的风格暴露25 5.4组合优化约束对组合业绩的影响26 六、总结28 参考文献29 风险提示29 图表目录 图1:FactorVAE模型示意图7 图2:FactorVAE模型架构8 图3:不同特征提取器的效果对比(2020.01.01-2024.2.28)9 图4:因子编码器结构9 图5:因子编码器计算公式9 图6:不同投资组合数量的效果对比(2020.01.01-2024.2.28)10 图7:因子解码器结构10 图8:因子解码器计算公式10 图9:预测收益率分布VS预测收益率均值效果对比(2020.01.01-2024.2.28)11 图10:因子预测器结构11 图11:因子预测器计算公式11 图12:预测标签Y不同处理方式下的模型效果对比(2020.01.01-2024.2.28)12 图13:不同输入下的模型效果对比(2020.01.01-2024.1.16)13 图14:DFQ-FactorVAE模型参数列表13 图15:不同batchsize下的模型效果对比(2020.01.01-2024.2.28)13 图16:训练集、验证集、测试集中IC变化14 图17:训练集、验证集、测试集中rankIC变化14 图18:中证全指股票池各模型因子绩效表现(2020.1.1-2024.3.31)15 图19:中证全指股票池各模型分组年化超额收益(2020.1.1-2024.3.31)15 图20:中证全指股票池各模型多头组超额收益净值&回撤(2020.1.1-2024.3.31)15 图21:中证全指股票池各模型分年绩效表现(2020.1.1-2023.12.31)16 图22:沪深300股票池各模型因子绩效表现(2020.1.1-2024.3.31)16 图23:沪深300股票池各模型分组年化超额收益(2020.1.1-2024.3.31)16 图24:沪深300股票池各模型多头组超额收益净值&回撤(2020.1.1-2024.3.31)17 图25:沪深300股票池各模型分年绩效表现(2020.1.1-2024.3.31)17 图26:中证500股票池各模型因子绩效表现(2020.1.1-2024.3.31)18 图27:中证500股票池各模型分组年化超额收益(2020.1.1-2024.3.31)18 图28:中证500股票池各模型多头组超额收益净值&回撤(2020.1.1-2024.3.31)18 图29:中证500股票池各模型分年绩效表现(2020.1.1-2024.3.31)19 图30:中证1000股票池各模型因子绩效表现(2020.1.1-2024.3.31)19 图31:中证1000股票池各模型分组年化超额收益(2020.1.1-2024.3.31)19 图32:中证1000股票池各模型多头组超额收益净值&回撤(2020.1.1-2024.3.31)20 图33:中证1000股票池各模型分年绩效表现(2020.1.1-2024.3.31)20 图34:中证全指股票池6随机种子得到的因子值相关系数(2020.01.01-2024.2.28)21 图35:中证全指股票池6随机种子得到的rankIC相关系数(2020.01.01-2024.2.28)21 图36:中证全指股票池中各模型相关性(2020.01.01-2024.3.31)21 图37:沪深300股票池中各模型相关性(2020.01.01-2024.3.31)22 图38:中证500股票池中各模型相关性(2020.01.01-2024.3.31)22 图39:中证1000股票池中各模型相关性(2020.01.01-2024.3.31)22 图40:中证全指股票池各模型中性化因子绩效表现(2020.1.1-2024.3.31)23 图41:沪深300股票池各模型中性化因子绩效表现(2020.1.1-2024.3.31)23 图42:中证500股票池各模型中性化因子绩效表现(2020.1.1-2024.3.31)23 图43:中证1000股票池各模型中性化因子绩效表现(2020.1.1-2024.3.31)23 图44:沪深300股票池指数增强组合绩效表现(2020.1.1-2024.3.31)24 图45:沪深300股票池指数增强组合超额净值与回撤(2020.1.1-2024.3.31)25 图46:沪深300股票池指数增强组合相对基准的平均风格暴露(2020.1.1-2024.3.31)25 图47:沪深300股票池指数增强组合相对基准的风格暴露变化(2020.1.1-2024.3.31)25 图48:不同成分股约束下,沪深300股票池指数增强组合的绩效表现(2020.1.1-20243.31)26 图49:不同成分股约束下,沪深300股票池指数增强组合超额净值与回撤(2020.1.1- 2024.3.31)................................................................................................................................26 图50:不同风险暴露约束下,沪深300股票池指数增强组合的绩效表现(2020.1.1-2024.3.31) ...................................................................................................................................................27 一、模型概述 FactorVAE模型(AProbabilisticDynamicFactorModelBasedonVariationalAutoencoderforPredictingCross-sectionalStockReturns,基于变分自编码器的概率动态因子模型进行横截面股票收益预