您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[东方证券]:因子选股系列之九十五:DFQ强化学习因子组合挖掘系统 - 发现报告
当前位置:首页/其他报告/报告详情/

因子选股系列之九十五:DFQ强化学习因子组合挖掘系统

2023-08-17杨怡玲、刘静涵东方证券在***
因子选股系列之九十五:DFQ强化学习因子组合挖掘系统

DFQ强化学习因子组合挖掘系统 ——因子选股系列之九十五 研究结论 传统的Alpha模型往往单独挖掘每个因子,在挖掘过程中只关注每个因子自身的选股效力,忽略了单因子在应用中的组合需求。实际上我们更关注的是可以协同工作并产生综合效果的因子组合。 本文展示了一种新的因子组合挖掘框架,直接使用因子组合的表现来优化一个强化学习因子生成器,最终生成的是一组公式因子集合,这些因子协同使用具有较高的选股效力。这样做既能保留遗传规划算法公式化的优势,也能提升模型泛化能力, 适应多种股票池,还能大幅提升运算效率。 基于强化学习的因子组合生成模型,由两部分组成:1)Alpha因子生成器:使用 MaskablePPO模型生成动作,并以token序列的形式生成公式化的Alpha因子。 2)Alpha因子组合模型:组合Alpha因子,并给出奖励信号。这两部分互相依赖: 金融工程|专题报告 报告发布日期2023年08月17日 证券分析师杨怡玲 yangyiling@orientsec.com.cn 执业证书编号:S0860523040002 证券分析师刘静涵 021-63325888*3211 liujinghan@orientsec.com.cn 执业证书编号:S0860520080003香港证监会牌照:BSX840 因子生成器通过生成新因子提高因子组合的性能。因子组合模型的性能作为奖励信号来优化因子生成器。通过不断重复此交互过程,提升因子组合的选股效力。 DFQ强化学习模型分别在沪深300、中证500、中证1000指数成分股内进行训练测试。采用2015.1.1-2018.12.31的数据作为训练集,2019.1.1-2019.12.31为验证集。2020.1.1-2023.6.30为测试集。挖掘月频因子,考察因子预测未来20天股票收 益时的表现。对于每个股票池的预测模型,选取5个不同的随机种子训练5个模 型,将5个模型的合成因子值结果取平均作为最终模型的输出。 DFQ强化学习因子明显优于人工因子和遗传规划因子,在三个股票池中都有很强的选股效力,市值偏向性低。在沪深300股票池中,测试集上rankic接近8%,RANKICIR接近1(未年化),5分组多头年化超额收益接近15%。在中证500股 票池中,测试集上rankic达到8.5%,RANKICIR达到1.15(未年化),5分组多头年化超额收益达到8.22%。在中证1000股票池中,测试集上rankic达到11.4%,RANKICIR达到1.38(未年化),10分组多头年化超额收益达到13.65%。 DFQ强化学习因子可完全替代人工因子,在300和500股票池中可替代遗传规划因子。强化学习合成因子对人工因子和遗传规划因子分别回归后,残差仍有显著选股效果,RANKIC超过5%,RANKICIR年化超过1。强化学习因子和神经网络因子间 存在信息差异,互相之间都不能被完全解释,两两回归残差都具备选股效果。 DFQ强化学习因子沪深300top50组合:20年以来年化超额收益近11%,单边年换手8倍,最大回撤8%。2023年到8.7号超额收益达到4.45%。中证500top50组合:20年以来年化超额16%,单边年换手9倍,最大回撤11%。2023年到8.7号超额收益达到9.45%。中证1000中的top50组合:20年以来年化超额15%,单边 年换手10倍,最大回撤16%。2023年到8.7号超额收益达到4%。 DFQ强化学习因子沪深300成分内指数增强组合:20年以来年化对冲收益近8%,单边年换手8倍,最大回撤6%,每年均取得正超额,2023年到8.7号对冲收益达5.28%。中证500成分内指数增强组合:20年以来年化对冲收益超11%,单边年换手9倍,最大回撤8%,每年均取得正超额,2023年到8.7号对冲收益达5.59%。中证1000成分内指数增强组合:20年以来年化对冲收益超8%,单边年换手10 倍,最大回撤11%,每年均取得正超额,2023年到8.7号对冲收益达1%。 风险提示 1.量化模型失效风险。 2.极端市场环境对模型的影响。 UMR2.0——风险溢价视角下的动量反转 统一框架再升级:——因子选股系列之九十四 集成模型在量价特征中的应用:——因子选股系列之九十三 基于时点动量的因子轮动:——因子选股系列之九十二 基于循环神经网络的多频率因子挖掘:— —因子选股系列之九十一 DFQ遗传规划价量因子挖掘系统:——因子选股系列之九十 分析师情感调整分数ASAS:——因子选股系列之八十九 基于偏股型基金指数的增强方案:——因子选股系列之八十八 分析师研报类alpha增强:——因子选股系列之八十七 2023-07-13 2023-07-01 2023-06-28 2023-06-06 2023-05-28 2023-03-28 2023-03-06 2023-02-17 有关分析师的申明,见本报告最后部分。其他重要信息披露见分析师申明之后部分,或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。 目录 一、DFQ强化学习因子组合挖掘系统概述6 二、强化学习算法介绍7 2.1强化学习7 2.2PPO算法8 三、基于强化学习的因子组合生成模型11 3.1模型概述11 3.2公式化因子11 3.3Alpha因子生成器12 3.4因子评价15 3.5Alpha因子组合模型15 四、DFQ模型实验结果18 4.1数据说明18 4.2运算用时19 4.3特征与算子出现频次20 4.4因子表现22 4.4.1单因子表现22 4.4.2合成因子绩效表现25 4.4.3不同随机种子的相关性28 4.5与常见因子的相关性28 五、top组合表现30 5.1top组合构建说明30 5.2沪深300top50组合30 5.3中证500top50组合31 5.4中证1000top50组合32 六、指数增强组合表现33 6.1增强组合构建说明33 6.2沪深300指数增强组合33 6.3中证500指数增强组合34 6.4中证1000指数增强组合35 七、总结36 参考文献37 风险提示37 图表目录 图1:多因子选股体系示意图6 图2:强化学习示意图7 图3:策略梯度算法VSPPO算法示意图8 图4:基于强化学习的因子组合生成模型示意图11 图5:因子表达式&表达式树&逆波兰表达式12 图6:Alpha因子生成器12 图7:token的合法性定义13 图8:Transformer模型下产生的合法因子数量14 图9:LSTM模型下产生的合法因子数量14 图10:Transformer模型下测试集因子表现15 图11:LSTM模型下测试集因子表现15 图12:人工因子列表17 图13:DFQ模型因子组合中人工因子的保留情况17 图14:DFQ模型主要参数设置18 图15:Tensor和NumPy的性能差异19 图16:沪深300股票池:size(单因子个数)19 图17:沪深300股票池:fps(一秒运行的步数)19 图18:中证500股票池:size(单因子个数)20 图19:中证500股票池:fps(一秒运行的步数)20 图20:中证1000股票池:size(单因子个数)20 图21:中证1000股票池:fps(一秒运行的步数)20 图22:沪深300:单因子表达式长度分布20 图23:中证500:单因子表达式长度分布21 图24:中证1000:单因子表达式长度分布21 图25:沪深300&中证500&中证1000股票池:特征出现频次21 图26:沪深300&中证500&中证1000股票池:算子出现频次22 图27:沪深300股票池:单因子权重分布23 图28:沪深300股票池:因子相关系数绝对值的最大值分布23 图29:中证500股票池:单因子权重分布23 图30:中证500股票池:因子相关系数绝对值的最大值分布23 图31:中证1000股票池:单因子权重分布23 图32:中证1000股票池:因子相关系数绝对值的最大值分布23 图33:沪深300股票池:单因子训练集RANKIC分布24 图34:沪深300股票池:单因子训练集RANKIC_IR(未年化)分布24 图35:中证500股票池:单因子训练集RANKIC分布24 图36:中证500股票池:单因子训练集RANKIC_IR(未年化)分布24 图37:中证1000股票池:单因子训练集RANKIC分布24 图38:中证1000股票池:单因子训练集RANKIC_IR(未年化)分布24 图39:沪深300股票池合成因子绩效表现(原始X,中性化Y)25 图40:中证500股票池合成因子绩效表现(原始X,中性化Y)25 图41:中证1000股票池合成因子绩效表现(原始X,中性化Y)25 图42:沪深300股票池合成因子测试集分年表现26 图43:中证500股票池合成因子测试集分年表现26 图44:中证1000股票池合成因子测试集分年表现26 图45:沪深300股票池测试集因子衰减速度27 图46:中证500股票池测试集因子衰减速度27 图47:中证1000股票池测试集因子衰减速度27 图48:沪深300股票池强化学习因子的原始值表现、中性化因子表现以及原始因子和中性化收益率之间的关系27 图49:中证500股票池强化学习因子的原始值表现、中性化因子表现以及原始因子和中性化收益率之间的关系28 图50:中证1000股票池强化学习因子的原始值表现、中性化因子表现以及原始因子和中性化收益率之间的关系28 图51:不同随机种子得到的测试集因子值序列的相关性28 图52:与常见因子的测试集因子值相关系数矩阵28 图53:两两回归残差测试集表现29 图54:沪深300股票池top50组合绩效表现30 图55:沪深300股票池top50组合净值30 图56:中证500股票池top50组合绩效表现31 图57:中证500股票池top50组合净值31 图58:中证1000股票池top50组合绩效表现32 图59:中证1000股票池top50组合净值32 图60:沪深300股票池指数增强组合绩效表现33 图61:沪深300股票池指数增强组合净值33 图62:中证500股票池指数增强组合绩效表现34 图63:中证500股票池指数增强组合净值34 图64:中证1000股票池指数增强组合绩效表现35 图65:中证1000股票池指数增强组合净值35 图1:多因子选股体系示意图 一、DFQ强化学习因子组合挖掘系统概述 多因子选股体系主要包括Alpha模型、风险模型、交易成本模型和组合优化四个模块。Alpha模型负责对股票收益或Alpha的预测,对组合收益的影响相对更大,是量化研究的重中之重。传统的Alpha模型一般分为Alpha因子库构建和Alpha因子加权两个核心步骤。 基本面数据 另类数据 分析师 数据 交易成本 风格暴露 跟踪误差 客观 约束 量价数据 Alpha 模型 风险模型 组合优化 目标 组合 因子生成 因子 筛选 因子 加权 线性 转换 初始 Alpha 因子库 精简Alpha因子库 多因子 zscore 预测收益率 绩效归因 交易执行 机器学习 Rank 检验 行业轮动 有效 事件 人脑? 机器? 主观观点 事件库 数据来源:东方证券研究所绘制 在Alpha因子构建中,可以引入的常见机器学习模型主要有两大类:遗传规划和神经网络,我们都有对应的研究成果。神经网络方法相关报告:《神经网络日频alpha模型初步实践》、 《周频量价指增模型》、《多模型学习量价时序特征》、《基于循环神经网络的多频率因子挖掘》;遗传规划算法相关报告:《机器因子库相对人工因子库的增量》、《DFQ遗传规划价量因子挖掘系统》。遗传规划和神经网络方法各有优劣,神经网络方法样本内拟合效果好,但模型黑箱,因子无显式公式,可解释性差,存在过拟合风险;遗传规划算法生成的因子具有显式公式,可解释性强,相对不易过拟合,对算力要求低,