量化专题报告 深度学习如何自适应市场状态以提升模型稳健性? 2025年01月27日 传统Transformer模型选股能力尚可,但对市场极端环境适应性差。将股 票日频量价数据及因子输入Transformer建立双周频股票收益预测模型,样本外输出的因子2019年以来RankIC86,表现较为一般,在宽基指数内有所衰减。模型主要有2个问题,其一是依赖高度的风格暴露,这一问题可以通过加入风格暴露惩罚等方式解决;其二是因子表现通常与市场走势呈负相关,这是因为模型在不同市场环境下并未对编码器做修正,导致模型无法识别市场变 分析师叶尔乐 化,超额收益在市场突变时回撤明显。本报告利用3种方式从模型的输入与结 执业证书:S0100522110002 构等方面做出改进,稳定提升基础模型的选股表现: 1通过MASTERTransformer纳入市场信息,对特征做自动选择。 邮箱:yeerlemszqcom分析师韵天雨执业证书:S0100524120004 2利用深度学习风险模型进一步刻画市场状态,输入市场偏好。 邮箱:yuntianyumszqcom 3在模型的训练流程及损失函数等方面进行优化。 MASTER模型利用宽基指数量价代表市场状态,进行自动特征选择。 相关研究1基金分析报告:基金季报2024Q4:聚焦 TongLi等人在2024年发表的论文中提出了一个名为MASTER(Market 成长、AI先行20250123 GuidedStockTransformer)的新模型,旨在捕获瞬时和跨时间的股票相关 2量化专题报告:资金流潮汐与“引力场” 性,并利用市场信息进行自动特征选择。我们对原论文的数据部分进行改进 因子构建20250121 后,对MASTER模型效果进行实证,保持其他设定不变的情况下,MASTER模型因子RankIC103,年化多头超额收益260,大幅打败基线Transformer模型。利用因子构建指数增强组合,在沪深300内年化超额收益159,信息 3量化周报:震仓特征加强支撑2025011 9 4量化专题报告:威科夫技术分析的概率云 表达:从主观到量化20250114 比率11,中证500内年化超额收益165,信息比率154,在中证1000内 5量化周报:突破支撑线20250112 年化超额收益224,信息比率162。 利用深度学习风险模型可进一步刻画市场状态。作为市场状态特征的大宽 基指数最近的量价本质上只刻画了市场最近的牛熊状态,然而市场每轮的牛熊背后驱动逻辑不同,市场偏好的风格也不同,所以我们需要理解市场最近的偏好以进一步刻画市场状态。而近年来,传统的Barra风格因子对于股票收益的解释度有所降低,已经不足以刻画市场风格,因此我们可以用深度学习风险模型输出更有解释力度的风险因子。深度风险因子相比barra风格因子对于市场收益的解释度在日度频率上可提升5。利用近期上涨最好股票的深度学习隐风格来衡量近期的市场特征,可构建120个新特征代表市场状态。 在模型的训练流程及损失函数等方面继续改进,最终因子效果提升明显。 对于损失函数,我们利用加权MSE来放大多头端的误差以提高模型在多头端预测的准确率。在模型的训练流程上,我们可以利用在线的元增量学习对于模型进行定期更新。元增量学习旨在根据最近的数据分布对数据与模型进行适应,从而快速掌握近期市场规律,适应动态变化的市场。最终因子RankIC107,年化ICIR60,年化多头超额收益34,利用因子构建指数增强组合,在沪深300内年化超额收益211,信息比率18,中证500内年化超额收益241,信息比率20,在中证1000内年化超额收益293,信息比率20,相比MASTER模型提升了稳定性与收益弹性,表现优异。 风险提示:量化模型基于历史数据,市场未来可能发生变化,策略模型有 失效可能。 目录 1传统深度学习模型的不足之处3 11从Transformer模型出发3 12Transformer模型的潜在问题6 2利用市场信息进行自动特征选择8 21MASTERTransformer8 22MASTER模型因子表现11 3模型的进一步改进14 31利用深度学习风险模型进一步刻画市场状态14 32损失函数与训练框架16 33最终模型因子表现18 4总结与思考22 5风险提示23 6附录24 插图目录25 表格目录25 1传统深度学习模型的不足之处 11从Transformer模型出发 以Transformer为主流的深度学习股票收益预测已经被广泛应用于因子构建中。通俗来说,如果把股票市场比作一本每天都在更新的“书”,这本书中包含了大量的股票量价及基本面信息,Transformer模型就像是一个优秀的读者,可以记住最近很长一段时间的信息,并且理解这些信息之间的复杂联系。比如一只股票的短期未来走势可能受到本身财务状况,最近的资金交易行为等因素影响,Transformer模型可以综合这些信息,帮助预测股票短期的未来收益。 Transformer模型的优势在于可以并行地处理股票最近所有时间步上的数据,并且选择性地关注某些重要信息,即注意力机制。Transformer的核心特点是全面依赖于注意力机制,并行学习序列的不同子空间,这种机制可以让模型从不同角度理解数据的同时,大大提高训练效率。除此之外,模型中还加入了位置编码,使模型能够利用序列的顺序;加入前馈网络有助于进一步转换注意力层的输出;加入残差连接帮助避免在深层网络中训练时的梯度消失问题。 图1:Transformer模型结构示意 资料来源:Vaswanietal2017,民生证券研究院 利用量价数据输入Transformer模型,可进行股票收益排序的预测。数据 集为股票每日量价7个指标民生金工因子库中的53个日频量价因子,因子定义及计算方式见附录。 开盘价t59最高价t59最低价t59收盘价t成交量t59均价t59成交额t59技术因子1t59技术因子53t59 开盘价t58最高价t58最低价t58收盘价t成交量t58均价t58成交额t58技术因子1t58技术因子53t58 开盘价t1最高价t1开盘价t最高价t 最低价t1最低价t 收盘价t成交量t1 收盘价t成交量t 均价t1成交额t1技术因子1t1技术因子53t1均价t成交额t技术因子1t技术因子53t 图2:Transformer预测股票收益排序 资料来源:民生证券研究院绘制 模型从2013年开始训练,2019年开始预测。即每次训练集验证集为6年, 每年滚动训练一次。模型未对2019年以前的信号进行样本外预测,这主要是因 为在Transformer模型在2017年被提出,需要一定的普及时间,样本外从2019 年开始可以避免未来知识的影响。数据处理及训练设置细节如下: 特征X:过去40个交易日的高、开、低、收、成交额、成交量、VWAP53个日频量价因子,维度为n4060 特征处理 特征处理:mad去极值后,对过去40日的量价指标除以最新一天的值,并对日频量价因子做标准化标签y:未来10个交易日vwaptovwap收益排序,T1T11 模型结构 Transformer:inputsize60hiddensize64nhead16numlayers2Dropout:dropout概率为01Decoder:全连接层,输入维度64,输出维度1损失函数:IC 训练参数 batchsizedailybatch;epoch:100,早停:连续20轮验证集未产生最佳表现学习率:8e5,优化器:Adam 图3:Transformer训练设置 资料来源:民生证券研究院绘制 基础Transformer模型训练得到的因子选股效果较为有限。自19年开始对样本外预测因子进行回测,按照每周最后一个交易日因子值在下周第一个交易日按照vwap价格调仓,因子周频平均RankIC为0086,RankICIR073,年化后为524。分十组双周频回测下,年化多空收益56,模型分组效果单调。从RankIC与多空收益的角度,相比于市面上的深度学习模型平均10左右的RankIC,基础Transformer模型因子表现较为一般。 图4:Transformer因子RankIC表现图5:Transformer因子十分组表现 资料来源:wind,民生证券研究院资料来源:wind,民生证券研究院 Transformer基线模型选股效果有限的原因有三。第一,训练集验证集6年的窗口可能不足以捕捉足量的历史规律,导致训练效果不够理想;第二,数据处理方面有进一步改善的空间,对输入数据做更精细的处理可以提升训练效果,这一点我们将在后文中做更细致的探讨。尽管基线模型有改进空间,但完全符合作为对照组的条件。后续实验中,我们将保留数据处理方式与训练数据长度等设定不变,以体现新模型的优势。 进一步回测因子在不同宽基指数中的表现,在沪深300中RankIC仅有44,中证500中RankIC54,中证1000中73,在此3个宽基指数上的年化多空收益分别为159,137,437。 图6:Transformer因子在宽基指数中的表现 资料来源:Wind民生证券研究院绘制 12Transformer模型的潜在问题 Transformer等深度学习模型在选股中的潜在问题有二。第一,因子收益对于风格较为依赖。Transformer模型长期在市值和估值风格上暴露较高。这里我们取Transformer在全A上的多头组合做风格暴露分析,计算全A多头组持仓在风格因子上的均值相对全A风格均值的偏离。全局来看,Transformer模型对于风格暴露依赖程度较高,但在每一个风格上波动不大,除市值风格出现过2次明显切换外,深度学习偏好低流动性,低波动率,大盘及小盘等特点的股票,且在动量因子上波动较为明显。 图7:Transformer因子的风格偏好 资料来源:Wind民生证券研究院绘制 对于深度学习过于依赖风格收益,以及风格暴露可能波动过大等问题,我们在之前的报告《深度学习如何控制策略风险?》中提出在损失函数中加入关于风格暴露的惩罚,一定程度上解决了此问题,在实际应用中,我们也可以控制因子的市值暴露以控制策略风险。 第二,因子收益走势与大盘本身的绝对收益呈负相关。考虑双边千三的费率,剔除新股,ST,涨停股票后,因子全A多头组合年化超额收益为164,较为有限。我们对比因子多头超额收益曲线与市场(中证800)走势发现,二者相关性为048,具有较强的负相关性。尤其是在市场强势上涨时,模型往往无法提供足够的超额收益跑赢市场,而在市场下跌时,模型往往比较抗跌。尽管有市值因素影响,但因子的两次最大回撤都发生在市场快速上涨时,已经可以说明问题。 图8:Transformer模型表现与中证800走势对比 资料来源:Wind民生证券研究院绘制 导致这一现象的原因可以从2个角度进行分析。资金面上,市场有大量资金突然进场时,往往会违背机器学习学到的历史规律,导致模型无法快速适应市场。然而我们无法预测资金的行为,很难从指标检测上调整策略,预防回撤。从模型的角度上,传统的Transformer模型虽然可以利用多头注意力等机制考虑到股票间相关性的衡量,但在不同市场环境下并未对encoder做修正,导致模型无法识别市场变化,超额收益在市场突变时回撤明显。我们将在本篇报告中着重对于这一点进行改进。 2利用市场信息进行自动特征选择 21MASTERTransformer 由于传统Transformer的股票收益预测能力随市场状态变化明显,我们需要考虑不同市场状态下深度学习的特征选择。本篇研究中,我们参考了TongLi等人于2024年发表的论文:MASTERMarketGuidedStockTransformerforStockPriceForecasting。论文中,作者提出了一个名为MASTER(MarketGuidedStockTransformer)的新模型,用于股票价格预测,旨在捕获瞬时和跨时间的股票相关性,并利用市场信息进行自动特征选