您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[华安证券]:“学海拾珠”系列之二百零四:RSAP-DFM:基于连续状态的动态因子模型 - 发现报告
当前位置:首页/其他报告/报告详情/

“学海拾珠”系列之二百零四:RSAP-DFM:基于连续状态的动态因子模型

2024-09-11骆昱杉、严佳炜华安证券秋***
“学海拾珠”系列之二百零四:RSAP-DFM:基于连续状态的动态因子模型

金融工程 专题报告 RSAP-DFM:基于连续状态的动态因子模型 ——“学海拾珠”系列之二百零四 报告日期:2024-09-11 主要观点: 分析师:骆昱杉 执业证书号:S0010522110001邮箱:luoyushan@hazq.com 分析师:严佳炜 执业证书号:S0010520070001邮箱:yanjw@hazq.com 相关报告 1.《基金业绩与风格暴露的变化——“学海拾珠”系列之二百零三》 2.《基于特征显著性隐马尔可夫模型的动态资产配置——“学海拾珠”系列之二百零二》 3.《上市公司的财报电话会议对股价的影响——“学海拾珠”系列之二百零一》 4.《数据挖掘的修正与基金的业绩表现——“学海拾珠”系列之二百》 5.《宏观趋势与因子择时——“学海拾珠”系列之一百九十九》 6.《另类情绪指标与股票市场收益之间的关系——“学海拾珠”系列之一百九十八》 7.《基金在风格层面的情绪择时——“学海拾珠”系列之一百九十七》 8.《宏观环境对价值溢价的影响——“学海拾珠”系列之一百九十六》 本篇是“学海拾珠”系列第二百零四篇,文章提出了一个基于连续状态的动态因子模型RSAP-DFM,该模型自适应地提取连续的宏观经济信息,并通过双重状态转换对股票收益的进行动态显式映射,引入遵循 对抗学习思想的后验因子有效地纠正了先前因子映射的偏差。 基于连续状态的动态因子模型RSAP-DFM RSAP-DFM框架能够自适应地提取连续的宏观经济信息,并通过双重状态转换对股票收益的进行动态显式映射,对抗性后验因子有效地纠正了先前因子映射的偏差。RSAP-DFM框架包括特征提取器、基于多头注意力的因子编码器、双重动态因子模型、自适应因子后验模块。特征提取器用于股票隐态和宏观模式嵌入,并提出了一个双编码器来处理双 重状态转换特征;基于多头注意力机制的先验因子编码器,以编码具有状态转换跳跃的因子;用于股票预测的双重动态因子模型结合神经网络来协调α、β和因子;引入遵循对抗学习思想的自适应因子后验模块,以 进一步纠正先前因子映射的偏差。此外,模型还集成了一个创新的两阶段优化算法和正态分布采样,进一步增强了模型的鲁棒性。 RSAP-DFM预测性能更优 文章使用中国A股市场数据来测试RSAP-DFM模型的性能,研究结果显示显式的宏观经济信息映射方法增强了我们模型的可解释性。模型在实际股票市场中的显示出了预测能力:该模型在股票预测方面优于 当前最先进的模型;消融实验表明双层优化能提升模型的性能;双重状态转换架构有助于提高预测性能;引入对抗学习的后验因子优于之前的方法;多空策略的表现明显优于基线模型。 文献来源 核心内容摘选自QuanzhouXiang,ZhanChen,QiSun,RujunJiang于2024年7月26日在InternationalJointConferenceonArtificialIntelligence上的文章《RSAP-DFM:Regime-ShiftingAdaptivePosteriorDynamicFactorModelforStockReturnsPrediction》 风险提示 文献结论基于历史数据与海外文献进行总结;不构成任何投资建议。 敬请参阅末页重要声明及评级说明证券研究报告 正文目录 1引言4 2相关工作5 2.1技术分析中的深度学习5 2.2因子模型6 3准备工作6 3.1动态因子模型7 3.2研究问题7 4研究方法7 4.1特征嵌入提取器8 4.2基于多头注意力的因子编码器9 4.3双动态因子模型10 4.4自适应因子后验模块10 4.5算法11 5实证研究12 5.1实验设置12 5.2总体性能评估13 5.3消融研究13 5.4基于梯度的后验因子构建更优14 5.5投资表现16 6结论17 风险提示:17 图表目录 图表1文章框架4 图表2RSAP-DFM框架8 图表3算法:1优化算法12 图表4基线与RSAP-DFM框架的比较13 图表5CSI100、CSI300和CSI500的总体预测性能13 图表6消融研究14 图表7后验比较16 图表8平均投资业绩16 1引言 图表1文章框架 资料来源:华安证券研究所整理 资产定价是现代金融研究中的一个核心主题,旨在解释不同资产预期回报的横截面差异。受到资本资产定价模型(CAPM)(Sharpe1964)的影响,Fama-French三因子模型开启了因子建模的时代。这种方法将股票超额回报概念化为多种基于因子的回报的组合,这些因子象征着超额回报的不同来源。然而,传统的静态因子存在缺陷,正被重新评估,相反动态模型包含了投资绩效的时间变化影响 (Stock和Watson2011)。与线性因子模型不同,机器学习可以使用多层非线性网络,为捕捉复杂的金融关系提供了一个更加稳健的框架。 鉴于上述优势,将机器学习应用于预测横截面预期超额回报成为了学术界关注的焦点。现有的研究将诸如树模型(Chen和Guestrin,2016)、时间序列模型 (Sutskever等2014)、图模型(Velickovic等2017)和注意力模型(Ding等2020)等机器学习方法转移到股票预测问题上。尽管性能有所提高,但可解释性仍然不充分。为了进一步描述不同时间点股票特征之间的相互依赖性,研究人员为金融市场特别开发了一些机器学习模型(Lin等2021a;Xu等2021)。机器学习技术也为传统的动态因子模型(线性关系)提供了一个全新的视角,这些模型动态地学习不同时期的因子暴露和因子回报(Kelly等2019;Uddin和Yu2020;Gu等2021; Duan等2022)。 不过仍有两个问题尚未解决。首先,在当前复杂多变的经济环境下,投资模型成功与否的关键在于能否及时判断宏观经济状态并将其纳入投资决策,现有的机器学习和动态因素模型难以有效概括这一特点。Wei等(2023)引入了分层市场状态 的创新概念,但将经济特征大致归类为离散的市场状态并采用黑箱集成的方法有些不够精确。其次,由于股票数据信噪比低,传统的数据驱动因子构建受到污染难以准确预测收益。 在这篇论文中,我们提出了一种名为RSAP-DFM(Regime-ShiftingAdaptivePosteriorDynamicFactorModel,状态转换自适应后验动态因子模型)的新模型,用于预测股票回报。在我们的方法中,我们重新塑造了因子构建、因子回报和因子暴露之间的关系。我们利用多头注意力机制从正态分布中动态地生成和抽样因子。这些因子是我们动态因子模型(DFM)中的关键组成部分,对于预测股 票回报至关重要。为了提高当前因子状态识别的精度,我们引入了一种新颖的制度识别方法,分别应用于因子回报和因子载荷。具体来说,我们采用了一种“跳跃编码器”来捕捉历史股票时间序列数据中派生的宏观经济状态对因子回报的影响。此外,还使用了一种“载荷编码器”来描述这些宏观状态对因子载荷和特质回报的影响。最后,我们还设计了一种创新的双层优化算法,通过对抗学习构建后验因子,这增 强了因子构建的鲁棒性,并优化了它们的预测回报。我们的发现证实了RSAP-DFM相比其他基线方法的优越性能。我们论文的贡献如下: 1.我们提出了一个名为RSAP-DFM的股票回报预测框架,该框架摒弃了人工因子构建过程,通过从正态分布中采样构建因子,并通过对抗学习构建后验因子。 据我们所知,我们是第一个提出基于梯度的后验因子构建,并以双层形式进行优化的。 2.在神经网络训练框架中,我们提出了双重状态转换结构,并将其应用于动态 因子模型(DFM),这是首次明确描述宏观经济状态如何影响股票回报,而不是以黑箱方式处理;此外,我们也是首次在连续区间而非离散区间执行状态转换。 3.使用真实股票市场数据进行了广泛的实验。在A股市场数据集上的实验表明,实验表明模型的(SOTA)性能优越,超越了之前研究。 2相关工作 2.1技术分析中的深度学习 自从Alexnet(Krizhevsky等2012)证明了神经网络的威力之后,深度学习的发展和应用就超出了人们的想象。在股票预测中,技术分析作为一个核心领域尤其适合深度学习模型的应用。技术分析仅使用股票和市场的数字特征作为数据。 (Selvin等2017)使用RNN(Rumelhart等1986)、LSTM(Hochreiter和Schmidhuber1997)、CNN-滑动窗口进行股价预测。与(Nelson等2017)一样使用LSTM作为骨干,(Zhang等2017)也提出了一种仅使用历史数据的高频预测模型。 基于传统神经网络模型人们开发出了更先进的用于股票预测的神经网络,针对股市的经典深度学习模型的改进成为技术分析的一个重要方向,如对抗式LSTM (Qin等2017)、多尺度高斯先验变换器(Ding等2020)、自适应RNN(Du等2021)等。如何更好地分析股票市场的量价信息和相关关系成为预测收益的另一大方向。现有研究采用超图排序法(Sawhney等2021)、基于实例的图方法 (Xu等人2021)、最优传输(Lin等2021)、自适应多空模式转换器(Wang等2022)等来深入表征股票信息和关系。然而通过深度学习方法解决市场转换问题的研究仍然有限,(Mari和Mari2023)只关注能源价格,而(Wei等2023)通过使用移动平均在线学习算法来学习分层潜空间以识别离散的市场制度。与任何状态转换方法不同的是,我们认为市场转换是以连续的时间间隔和明确的映射方式进行的。 2.2因子模型 按照传统因子模型仅指股票收益是有各因子的风险敞口收益线性组合的模型。传统的因子模型从CAPM中的单一市场因子(Sharpe1964)发展到Ross提出的套利定价理论(Ross2013),并扩展到Fama-French三因子模型(Fama和French1992)和Carhart四因子模型(Carhart1997)等多因子模型。最新的因子模型发展出了数百个因子,形成了著名的“因子动物园”。 在动态因子模型中,因子及其暴露随时间变化,通常源自个体特征。动态因子模型最初由Geweke(Geweke,1977])提出并作为横截面因子模型的时间序列扩展;有关传统动态因子模型的详细解释和汇总,参见(Stock和Watson,2011)。然而,动态因子模型的局限性在于它依赖复杂的统计技术进行因子构建,而机器学习可以将这些方法模糊化为一个黑箱。与主成分分析法(IPCA)(Kelly等2019)的线性假设不同,(Gu等2021)将因子暴露建模为协变量的灵活非线性函数。此外(Lin等2021)提出了一个风险因子模型来更好地解释股票回报的方差,而(Wei等2022)提出了一个深度多因子模型,在层次结构中构建动态和多关系的股价图。最新研究是(Duan等2022),它考虑基于(Gu等,2021)使用变分自编码器来建模 噪声。然而,现有的因子模型仅限于将传统因子模型的每一步包装在机器学习中而 不是将新思想纳入模型设计。 3准备工作 在本节中,我们简要介绍动态因子模型作为基础框架,然后定义状态转变并引入我们的研究问题。 为了概括地表达这一概念,我们使用以下所述的符号和定义。在完整集合Ω中,共有T个按时间顺序排列的子集[xt,rt],Ω=[[x1,r1],...,[xT,rT]]其 中t=1,...,T,𝑥�∈ℝ𝑁𝑡×𝐵×�表示Nt种股票在过去B个时间步的F种特征 (如价格、成交量、文本数据),𝑟�∈ℝ𝑁�表示Nt种横截面股票的未来收益。这类问题的目标是通过当前特征预测横截面的未来收益,可概括如下: 𝑟�=𝑓(𝑥𝑡) 3.1动态因子模型 动态因子模型的典型表述如下: tt rˆ K ttt (k)(k), k1 其中,𝑟�=(𝑦𝑡+1−𝑦𝑡)/𝑦�∈ℝ𝑁�表示Nt只股票在时间步t的未来1天收益率,yt∈ℝ𝑁�表示时间步t的价格,可以用开盘价、收盘价或成交量加权平均价 (VWAP)等多种价