DiffsFormer:基于扩散模型的因子增强框架 ——“学海拾珠”系列之一百八十� 金融工程 专题报告 主要观点: 报告日期:2024-04-18 分析师:严佳炜 执业证书号:S0010520070001邮箱:yanjw@hazq.com 分析师:吴正宇 执业证书号:S0010522090001邮箱:wuzy@hazq.com 相关报告 1.《深度投资组合管理中的对比学习和奖励平滑——“学海拾珠”系列之一百八十四》 2.《基金业绩基准之外的共同持股意味着什么?——“学海拾珠”系列之一百八十三》 3.《基于网络和机器学习的因子、资产和混合配置——“学海拾珠”系列之一百八十二》 4.《股息收益率、股息增长率和回报可预测性——“学海拾珠”系列之一百八十一》 5.《基金投资者能否从波动率管理中获益?——“学海拾珠”系列之一百八十》 6.《如何使用强化学习优化动态资产配置?——“学海拾珠”系列之一百七十九》 7.《高成交量回报溢价与经济基本面 ——“学海拾珠”系列之一百七十八》 8.《基金经理技能之卖出能力的重要性——“学海拾珠”系列之一百七十七》 本篇是“学海拾珠”系列第一百八十�篇,作者证明股票预测通常存在数据低信噪比(SNR)和数据同质化这两方面的数据稀缺问题,对准确预测构成重大障碍。为了解决问题,本文作者引入扩散模型(DM)来 生成具有Transformer架构(DiffsFormer)的股票因子。该框架主要借助标签和行业信息来增强时间序列选股因子。此外,深入了解DiffsFormer各组件功能,并开发出几种新技术来提高模型的整体表现、 时间效率以及降低波动性。最后,作者在沪深300和中证800两个数据 集,采用8种常用的机器学习模型进行实证。 回到国内市场,挖掘alpha的难度日益提高,本文基于DiffsFormer 的因子增强框架较为新颖,值得一看。 将DM从生成任务调整为有监督学习任务提高股票预测能力 股票预测任务中,干净且信息丰富的监督信号对于模型训练至关重 要,但直接向标签添入因子向量是无效的,因此作者通过引导输入标签信息和行业信息来控制合成过程,以使得DM从生成任务适应到回归任务。此外,通过整合无预测器的引导来进一步增强引导的灵活性。 在DM中引入迁移学习提高数据生成的保真度 由于数据SNR较低,DM中引入迁移学习,在更大的源域中进行学 习,提炼新的知识和信息,而后在目标域中编辑现有因子,而不是合成 新样本。实证结果表明,该方法与添加随机噪音相比效果更好。此外,该方法还可以缓解数据碰撞现象。 实证分析表明DiffsFormer框架的有效性 作者在沪深300和中证800两个数据集中,使用8个常见的机器学 习模型验证了DiffsFormer的有效性,所提出的方法在年化收益率方面分别实现了显著提升。 风险提示 文献结论基于历史数据与海外文献进行总结;不构成任何投资建议。 敬请参阅末页重要声明及评级说明证券研究报告 正文目录 1引言4 2相关研究6 2.1股票预测7 2.2时间序列扩散模型7 3背景7 3.1问题提出8 3.2去噪扩散概率模型8 4方法论8 4.1基于扩散的数据增强9 4.2条件扩散增强11 4.3模型细节13 5实证分析14 5.1数据集14 5.2复现性14 5.3实验设置15 5.4表现比较15 5.5讨论17 5.6有效性分析18 5.7DIFFSFORMER的改进20 6结论和未来展望22 风险提示:22 图表目录 图表1文章框架4 图表2(A)收益与股票因子之间的相关系数;(B)按行业划分的大幅下跌股票的平均数目5 图表3DIFFSFORMER的相关说明(F代表因子)6 图表4编辑步骤的相关说明10 图表5训练和编辑的拓扑10 图表6DIFFSFORMER训练11 图表7DIFFSFORMER推理11 图表8生产因子和原始因子与标签之间的𝑹�分数12 图表9标签生成和标签条件机制的模型表现12 图表10DIFFSFORMER概览13 图表11超参数和搜索范围15 图表12在沪深300上的表现比较16 图表13在中证800上的表现比较16 图表14在沪深300和中证800上的加权IC比较17 图表15数据保真度和多样性的相关说明17 图表16原始特征(粉色)和增强特征(蓝色)的T-SNE图18 图表17编辑步骤的效果18 图表18不同目标域和源域的数据增强和微调结果19 图表19不同条件下股票预测表现19 图表20沪深300中的TRANSFORMER和中证800中的GRU上不同增强方法的比较20 图表21TRANSFORMER的SHAKE-SHAKE的相关说明20 图表22损失引导扩散的影响示意图21 图表23不同训练数据的IR21 图表24不同采样步长的损失曲线21 图表25不同输入的表现22 1引言 图表1文章框架 资料来源:华安证券研究所整理 准确的股票预测在有效的资产管理和投资策略中发挥着至关重要的作用。其目的是通过分析相关的历史因子来预测未来的股票走势(如股票回报或股票价格)。之前的研究已经探索了各种机器学习技术,如SFM、ALSTM和HIST。然而,这些方法要达到理想的表现往往需要大量的高质量数据。高随机性和同质化数据带来的挑战使得数据质量难以达到要求,导致预测误差的增大和不确定性的增加。 股票预测任务中的数据稀缺性通常体现在两个方面:信噪比(SNR)和数据同质性。(1)本文首先深入了解股票因子与收益之间的关系,为SNR提供了见解。图表2a显示了股票因子与回报之间的Pearson相关系数,显示出较弱的相关性 (绝对值小于0.03),表明因子的SNR较低。这种弱相关性通常归因于随机性和非平稳投机行为。(2)本文探讨了同一行业板块内股票的表现,以展示数据同质性的影响。作者发现同一行业板块内的股票表现出相似的行为,如图表2b所示,该图表报告了按行业分类的大幅下跌股票的平均数量。因此,这种同质性导致具有独特信息特征的股票数量减少。数据稀缺性带来的固有挑战可能会导致过拟合,使得模 型学习捷径和虚假相关的风险增加,终影响其预测性能。数据的有限可用性是实现训练集和测试集之间的有效泛化的重大障碍,从而导致整体表现的受损。 图表2(a)收益与股票因子之间的相关系数;(b)按行业划分的大幅下跌股票的平均数目 资料来源:《DiffsFormer:ADiffusionTransformeronStockFactorAugmentation》,华安证券研究所 因子增强是克服数据稀缺性的一个直接解决方案,它是一种通过引入微小变化或基于特定因素生产新数据点来增强训练数据集的技术。本文从扩散模型(DMs)在文本到图像转换、时间序列插补和波形产生等多个领域的成功应用中汲取灵感,探索如何将DMs用于股票预测。DMs是包括两个阶段的生成模型:扩散过程和去噪过程。扩散过程通过参数化马尔可夫链,逐步向因子中引入噪声,直至达到纯噪声状态。随后,在去噪过程中,模型旨在通过预测扩散过程中产生的噪声来恢复原始数据。在本文的研究中,作者回顾了前8天的情况,将最近的股票因子整理为一个序列,利用基于Transformer架构的DMs进行因子增强。本文作者希望通过纳入增强因子,提出的模型将在股票预测领域表现出对数据稀缺性更强的适应力。 将DMs用于股票因子增强会面临着非同小可的挑战,尤其是在为生成的因子分配相应标签方面。虽然一种可行的方法是直接将标签作为股票因子的一个维度,但这种方法存在生成不准确结果的风险。由于难以准确匹配因子与其对应的标签,特别是考虑到收益率的不可预测性,明确生成标签具有挑战性。为了克服这一挑战,本文作者建议利用灵活的无预测器的条件因子生成器,将DMs从生成任务调整为有监督学习任务。生成器使用标签作为条件进行训练,因此可以预测生成的因子与原始因子具有相同的标签。此外,本文还探索利用其他类型的条件(如行业板块)来进一步提高准确性。相关说明见图表3。 图表3DiffsFormer的相关说明(F代表因子) 资料来源:《DiffsFormer:ADiffusionTransformeronStockFactorAugmentation》,华安证券研究所 为了在增强过程中提炼新的知识和信息(即其他市场的股票),本文提出的框架包含了迁移学习。最初,DM在一个大的源域中进行训练,扩散步长记为𝑇;在推理过程中,本文不是从标准正态分布中生成,而是从目标域中的数据点开始,对其进行破坏,然后去噪以获得一个可能在目标域中的新数据点。然而,由于DMs需要较大的�值才能达到纯噪声状态,因此随着�值的增加,股票数据中普遍存在的低SNR给实现精确恢复带来了挑战。在实际应用中,本文将数据损坏限制在较小的步长内,即𝑇′≪𝑇,将其称为编辑步骤。此外,本文作者还发现了这一机制带来的显著优势。当多个模型同时使用同一数据副本时,就会出现数据碰撞现象。在这种情况下,大量的资金涌入市场可能导致这些模型无法实现其投资目标。然而,通过对因子进行编辑,引入新的数据副本,可以有效缓解这一问题。总而言之,本文的方法是利用从更大的源领域中获得的知识来编辑目标领域中的样本。 本文还提出几项改进措施,以提高模型的效率并降低模型的波动性。显然,在 �>𝑇′的情况下,没有必要对DM进行优化。在此基础上,用�来初始化DM,以确保其正确性,但从𝑈𝑛𝑖𝑓𝑜𝑟𝑚[1,2,…,𝑇′]而不是𝑈𝑛𝑖𝑓𝑜𝑟𝑚[1,2,…,𝑇]中抽取样本训练步长�。此外,本文还利用训练损失作为代理,并向具有较低训练损失的数据点引入更强的噪声。这种以损失为导向的噪声添加机制与均匀噪声添加机制不同,其目的是通过减轻与易拟合点相关的过拟合问题来降低模型的波动性。 总之,本文的贡献如下: 揭示了数据增强在股票预测中的重要性,并探索使用扩散股票 Transformer(简称DiffsFormer)来解决数据稀缺问题。 为了将DM从生成任务调整为有监督学习任务,本文建议采用真实标签 (如收益率)作为条件来增强因子与标签之间的关系。此外,还通过整合无预测器的指导方法来增强指导的灵活性。 由于因子的SNR较低,本文建议以迁移学习的方式编辑现有样本,而不是合成新样本。与随机噪音增强等方法相比,这种机制的一个优势在于它能够提炼新知识。 使用八个常用的机器学习模型验证了DiffsFormer增强训练在CSI300和CSI800中的有效性。所提出的方法在年化收益率方面分别实现了7.2%和27.8%的相对改进。 2相关研究 本节将介绍股票预测方面的相关工作,并讨论一些时间序列扩散模型。 2.1股票预测 股票预测是一个利用历史时间序列数据来预测未来股票价格的领域。机器学习模型,尤其是LSTM、GRU和Bi-LSTM等时间序列模型在这一领域大受欢迎。 研究人员提出了量身定制的模型以更好地适应金融场景。例如,Lietal.引入了额外的输入门以提取因子之间的正负相关性。Dingetal.提出了一种新型LSTM模型,可同时预测股票的开盘价、最低价和最高价。Agarwaletal.提出了一种混合预测模型(HPM),它结合了三种时间序列模型。Zhangetal.提出了一种状态频率记忆网络(SFM),它将记忆单元的隐藏状态分解为多个频率成分,以模拟不同的潜在交易模式。Fengetal.在LSTM变体中加入了时间注意力聚合层和对抗训练。Chenetal.在其结构化股票预测模型(SSPM)和多任务结构化股票预测模型 (MSSPM)中使用Bi-LSTM对股票数据和金融新闻进行编码。 CNNs也被认为能够捕捉预测股票波动的重要特征。例如,Dengetal.提出了知识驱动的时序卷积网络(KDTCN),该网络将知识图谱与CNN相结合,以充分利用行业关系。Luetal.通过引入注意力机制,从历史上的重要股票波动中提取信息,增强了基于于CNN的模型。Chandar将技术指标转化为图像,并将其作为CNN模型的输入。