您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[华安证券]:“学海拾珠”系列之一百八十五:DiffsFormer:基于扩散模型的因子增强框架 - 发现报告
当前位置:首页/其他报告/报告详情/

“学海拾珠”系列之一百八十五:DiffsFormer:基于扩散模型的因子增强框架

2024-04-18严佳炜、吴正宇华安证券单***
“学海拾珠”系列之一百八十五:DiffsFormer:基于扩散模型的因子增强框架

敬请参阅末页重要声明及评级说明 证券研究报告 DiffsFormer:基于扩散模型的因子增强框架 ——“学海拾珠”系列之一百八十五 [Table_RptDate] 报告日期:2024-04-18 [Table_Author] 分析师:严佳炜 执业证书号:S0010520070001 邮箱:yanjw@hazq.com 分析师:吴正宇 执业证书号:S0010522090001 邮箱:wuzy@hazq.com 相关报告 1. 《深度投资组合管理中的对比学习和奖励平滑——“学海拾珠”系列之一百八十四》 2. 《基金业绩基准之外的共同持股意味着什么?——“学海拾珠”系列之一百八十三》 3. 《基于网络和机器学习的因子、资产和混合配置——“学海拾珠”系列之一百八十二》 4. 《股息收益率、股息增长率和回报可预测性——“学海拾珠”系列之一百八十一》 5. 《基金投资者能否从波动率管理中获益?——“学海拾珠”系列之一百八十》 6. 《如何使用强化学习优化动态资产配置?——“学海拾珠”系列之一百七十九》 7. 《高成交量回报溢价与经济基本面——“学海拾珠”系列之一百七十八》 8. 《基金经理技能之卖出能力的重要性——“学海拾珠”系列之一百七十七》 主要观点: [Table_Summary] 本篇是“学海拾珠”系列第一百八十五篇,作者证明股票预测通常存在数据低信噪比(SNR)和数据同质化这两方面的数据稀缺问题,对准确预测构成重大障碍。为了解决问题,本文作者引入扩散模型(DM)来生成具有Transformer架构(DiffsFormer)的股票因子。该框架主要借助标签和行业信息来增强时间序列选股因子。此外,深入了解DiffsFormer各组件功能,并开发出几种新技术来提高模型的整体表现、时间效率以及降低波动性。最后,作者在沪深300和中证800两个数据集,采用8种常用的机器学习模型进行实证。 回到国内市场,挖掘alpha的难度日益提高,本文基于DiffsFormer的因子增强框架较为新颖,值得一看。 ⚫ 将DM从生成任务调整为有监督学习任务提高股票预测能力 股票预测任务中,干净且信息丰富的监督信号对于模型训练至关重要,但直接向标签添入因子向量是无效的,因此作者通过引导输入标签信息和行业信息来控制合成过程,以使得DM从生成任务适应到回归任务。此外,通过整合无预测器的引导来进一步增强引导的灵活性。 ⚫ 在DM中引入迁移学习提高数据生成的保真度 由于数据SNR较低,DM中引入迁移学习,在更大的源域中进行学习,提炼新的知识和信息,而后在目标域中编辑现有因子,而不是合成新样本。实证结果表明,该方法与添加随机噪音相比效果更好。此外,该方法还可以缓解数据碰撞现象。 ⚫ 实证分析表明DiffsFormer框架的有效性 作者在沪深300和中证800两个数据集中,使用8个常见的机器学习模型验证了DiffsFormer的有效性,所提出的方法在年化收益率方面分别实现了显著提升。 ⚫ 风险提示 文献结论基于历史数据与海外文献进行总结;不构成任何投资建议。 [Table_StockNameRptType] 金融工程 专题报告 [Table_CommonRptType] 金融工程 敬请参阅末页重要声明及评级说明 2 / 23 证券研究报告 正文目录 1 引言 ........................................................................................................................................................................................................ 4 2 相关研究 ................................................................................................................................................................................................ 6 2.1 股票预测 ............................................................................................................................................................................................................. 7 2.2 时间序列扩散模型 ........................................................................................................................................................................................... 7 3 背景 ........................................................................................................................................................................................................ 7 3.1 问题提出 ............................................................................................................................................................................................................. 8 3.2 去噪扩散概率模型 ........................................................................................................................................................................................... 8 4 方法论 .................................................................................................................................................................................................... 8 4.1 基于扩散的数据增强 ...................................................................................................................................................................................... 9 4.2 条件扩散增强 ................................................................................................................................................................................................. 11 4.3 模型细节 .......................................................................................................................................................................................................... 13 5 实证分析 .............................................................................................................................................................................................. 14 5.1 数据集 ............................................................................................................................................................................................................... 14 5.2 复现性 ............................................................................................................................................................................................................... 14 5.3 实验设置 .......................................................................................................................................................................................................... 15 5.4 表现比较 .......................................................................................................................................................................................................... 15 5.5 讨论 ....................................