您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[东方证券]:因子选股系列之一〇三:DFQ-FactorVAE:融合变分自编码器和概率动态因子模型的alpha预测方案 - 发现报告

因子选股系列之一〇三:DFQ-FactorVAE:融合变分自编码器和概率动态因子模型的alpha预测方案

2024-05-13杨怡玲、刘静涵东方证券x***
因子选股系列之一〇三:DFQ-FactorVAE:融合变分自编码器和概率动态因子模型的alpha预测方案

DFQFactorVAE:融合变分自编码器和概率动态因子模型的alpha预测方案 因子选股系列之一三 研究结论 FactorVAE模型架构 FactorVAE模型,来自国际人工智能会议AAAI2022。原论文中提出了一种新的基于变分自编码器的概率动态因子模型,以弥合噪声数据与有效因子之间的差距。本文在原论文基础上进行修改优化,所得选股因子在沪深300指数增强组合中表现优异。 FactorVAE模型融合了变分自编码器与概率动态因子模型的思想,建立股票收益率预测模型,学习输入特征和标签之间的关系:(1)采用变分自编码器的编码器解码器架构,有助于模型学习到数据分布的结构,并且可以在潜在空间中生成新样本;(2) 金融工程专题报告 报告发布日期2024年05月14日 杨怡玲yangyilingorientseccomcn 执业证书编号:S0860523040002 刘静涵021633258883211 liujinghanorientseccomcn 执业证书编号:S0860520080003香港证监会牌照:BSX840 采用概率动态因子模型的思想,将因子作为VAE模型中的潜在变量,提取动态公共因子的分布,从而起到降维降噪的作用。(3)采用一种“前验后验”的学习方法,将预测股票收益率的问题转化成预测有效因子,使用标签收益率指导模型提取有效因子。 DFQFactorVAE模型优势 DFQFactorVAE模型所得因子的稳定性、在沪深300股票池中的多头表现突出: (1)在中证全指股票池中,DFQFactorVAE模型所得到因子的稳定性明显最强,ICIR、RANKICIR、多头日超额收益夏普比均为最高。测试集(2020010120240331)上rankic达到15,rankicir达到138,20分组多头日度超额年化收益 率达到3175,多头日超额收益夏普比352,多头日度超额收益最大回撤828,多头月度胜率88,月均单边换手79。分组单调性好。 (2)在沪深300股票池中,DFQFactorVAE模型所得到因子的多头表现明显最强。测试集上rankic达到106,rankicir达到06,5分组多头日度超额年化收益率达到1447,多头日超额收益夏普比172,多头日度超额收益最大回撤674,月均单边 换手54。分组单调性好。分年表现上未出现明显衰减。 DFQFactorVAE模型所得因子稳定性突出,与模型的VAE架构和概率框架有关。 VAE架构有助于模型学习到数据分布的结构,样本外泛化能力更强。概率框架考虑到了风险建模,更适合含有噪声的股票收益率预测。 DFQFactorVAE模型所得因子在沪深300股票池中的多头表现突出,与模型的因子模型架构有关。先验因子对沪深300股票的解释度最高,平均能达到365,其次为中证500成分股的2795,中证1000成分股的2545,全市场解释度最低,为 2078。 DFQFactorVAE模型在沪深300指增组合中的表现 DFQFactorVAE模型所得到的合成因子在沪深300指增组合中表现十分突出: (1)整体表现:2020年以来年化信息比达到255,年化对冲收益1353,年化跟踪误差503,超额收益最大回撤仅为535,单边年换手767倍。 (2)分年表现:20202023每年取得10以上的正超额,2023年超额收益达16。2024年前三个月超额收益为036。 (3)风格暴露:相对基准沪深300指数,组合在市值、信息确定性、成长维度具有明显的负向暴露,但在BETA、流动性、波动率、估值等维度都没有明显暴露。 (4)成分股约束:设置100成分内选股增强,可以明显提高组合业绩表现稳定性。跟踪误差可以降低到437,超额收益最大回撤降低到331,最大回撤恢复仅需30 天,并且仍然可以获得超过10的年化超额。 风险提示 1量化模型失效风险。 2极端市场环境对模型的影响。 基本面因子的重构:因子选股系列之 一二 自适应时空图网络周频alpha模型:因子选股系列之一一 DFQHIST:添加图信息的选股因子挖掘系统:因子选股系列之一百 基于异构图神经网络的股票关联因子挖掘:因子选股系列之九十九 DFQTRA:多交易模式学习因子挖掘系统:因子选股系列之九十七 DFQ强化学习因子组合挖掘系统:因子选股系列之九十五 DFQ遗传规划价量因子挖掘系统:因子选股系列之九十 20240321 20240228 20240207 20240102 20231114 20230817 20230528 有关分析师的申明,见本报告最后部分。其他重要信息披露见分析师申明之后部分,或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。 目录 一、模型概述5 11自编码器(AutoEncoderAE)5 12变分自编码器(VariationalAutoEncoderVAE)5 13因子模型(FactorModel)6 14概率动态因子模型(ProbabilisticDynamicFactorModel)6 15FactorVAE6 二、模型架构7 21模型训练和预测过程7 22特征提取器8 23因子编码器9 24因子解码器10 25因子预测器11 三、模型说明12 31数据说明12 32模型输入12 33模型参数13 四、模型结果14 41运算用时14 42因子绩效表现14 43随机种子的影响21 44与其他量价模型相关性21 45中性化因子表现23 五、沪深300指数增强组合24 51指数增强组合构建说明24 52指数增强组合的业绩表现24 53指数增强组合的风格暴露25 54组合优化约束对组合业绩的影响26 六、总结28 参考文献29 风险提示29 图表目录 图1:FactorVAE模型示意图7 图2:FactorVAE模型架构8 图3:不同特征提取器的效果对比(202001012024228)9 图4:因子编码器结构9 图5:因子编码器计算公式9 图6:不同投资组合数量的效果对比(202001012024228)10 图7:因子解码器结构10 图8:因子解码器计算公式10 图9:预测收益率分布VS预测收益率均值效果对比(202001012024228)11 图10:因子预测器结构11 图11:因子预测器计算公式11 图12:预测标签Y不同处理方式下的模型效果对比(202001012024228)12 图13:不同输入下的模型效果对比(202001012024116)13 图14:DFQFactorVAE模型参数列表13 图15:不同batchsize下的模型效果对比(202001012024228)13 图16:训练集、验证集、测试集中IC变化14 图17:训练集、验证集、测试集中rankIC变化14 图18:中证全指股票池各模型因子绩效表现(2020112024331)15 图19:中证全指股票池各模型分组年化超额收益(2020112024331)15 图20:中证全指股票池各模型多头组超额收益净值回撤(2020112024331)15 图21:中证全指股票池各模型分年绩效表现(20201120231231)16 图22:沪深300股票池各模型因子绩效表现(2020112024331)16 图23:沪深300股票池各模型分组年化超额收益(2020112024331)16 图24:沪深300股票池各模型多头组超额收益净值回撤(2020112024331)17 图25:沪深300股票池各模型分年绩效表现(2020112024331)17 图26:中证500股票池各模型因子绩效表现(2020112024331)18 图27:中证500股票池各模型分组年化超额收益(2020112024331)18 图28:中证500股票池各模型多头组超额收益净值回撤(2020112024331)18 图29:中证500股票池各模型分年绩效表现(2020112024331)19 图30:中证1000股票池各模型因子绩效表现(2020112024331)19 图31:中证1000股票池各模型分组年化超额收益(2020112024331)19 图32:中证1000股票池各模型多头组超额收益净值回撤(2020112024331)20 图33:中证1000股票池各模型分年绩效表现(2020112024331)20 图34:中证全指股票池6随机种子得到的因子值相关系数(202001012024228)21 图35:中证全指股票池6随机种子得到的rankIC相关系数(202001012024228)21 图36:中证全指股票池中各模型相关性(202001012024331)21 图37:沪深300股票池中各模型相关性(202001012024331)22 图38:中证500股票池中各模型相关性(202001012024331)22 图39:中证1000股票池中各模型相关性(202001012024331)22 图40:中证全指股票池各模型中性化因子绩效表现(2020112024331)23 图41:沪深300股票池各模型中性化因子绩效表现(2020112024331)23 图42:中证500股票池各模型中性化因子绩效表现(2020112024331)23 图43:中证1000股票池各模型中性化因子绩效表现(2020112024331)23 图44:沪深300股票池指数增强组合绩效表现(2020112024331)24 图45:沪深300股票池指数增强组合超额净值与回撤(2020112024331)25 图46:沪深300股票池指数增强组合相对基准的平均风格暴露(2020112024331)25 图47:沪深300股票池指数增强组合相对基准的风格暴露变化(2020112024331)25 图48:不同成分股约束下,沪深300股票池指数增强组合的绩效表现(2020112024331)26 图49:不同成分股约束下,沪深300股票池指数增强组合超额净值与回撤(202011 2024331)26 图50:不同风险暴露约束下,沪深300股票池指数增强组合的绩效表现(2020112024331) 27 一、模型概述 FactorVAE模型(AProbabilisticDynamicFactorModelBasedonVariationalAutoencoderforPredictingCrosssectionalStockReturns,基于变分自编码器的概率动态因子模型进行横截面股票收益预测),来自国际人工智能会议AAAI2022(AssociationfortheAdvanceofArtificialIntelligence,2022),四位作者(YitongDuanLeiWangQizhongZhangJianLi)都来自清华大学。原论文中提出了一种新的基于变分自编码器的概率动态因子模型,以弥合噪声数据与有效因子之间的差距。作者在A股中沪深300的数据上验证了该模型具有较好的预测效果。本文在原论文基础上进行修改优化,所得选股因子在沪深300指数增强组合中表现优异。 11自编码器(AutoEncoderAE) 自编码器一般用在数据的压缩和恢复中,通过编码器降低存储大小,利于传输,再使用解码器进行还原。自编码器主要由两部分组成:编码器(Encoder)和解码器(Decoder)。编码器用于将高维输入(如图片)映射为低维编码(code),解码器用于将低维编码(code)映射为高维输出(如生成的图片)。通过最小化编码器输入与解码器输出之间的差距(通常可用MSE损失)来训练网络参数。通常我们使用神经网络模型作为编码器和解码器,引入了神经网络强大的拟合能力,可以使得编码的维度能够比原始图像的维度低非常多。 但自编码器并不是一个有效的生成模型。对于一个生成模型而言,解码器部分应该是能够单独提取出来的,并且对于在规定维度下任意采样的一个编码,都应该能通过解码器产生一张清晰且真实的图片。而自编码器是