您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[东方证券]:因子选股系列之九十七:DFQ-TRA:多交易模式学习因子挖掘系统 - 发现报告
当前位置:首页/其他报告/报告详情/

因子选股系列之九十七:DFQ-TRA:多交易模式学习因子挖掘系统

2023-11-14杨怡玲、刘静涵东方证券等***
因子选股系列之九十七:DFQ-TRA:多交易模式学习因子挖掘系统

DFQ-TRA:多交易模式学习因子挖掘系统 ——因子选股系列之九十七 研究结论 针对股票收益率预测任务,采用TRA模型,用以识别不同的交易模式,直面“市场规律具有时变特性”这一核心问题。期望为每只股票,在每个时刻,都能找到与之相适应的股票收益率预测器或预测器组合,从而达到更优的预测效果。为了防止输 出结果集中在个别预测器,借鉴了最优传输问题(OT)来指导路由器的学习。 多股票交易模式:现有的股票收益率预测方法通常假设股票数据独立同分布,采用单一模型对股票数据建模。但实际上:(1)股票数据通常会包含多种不同的分布。(2)市场存在不止一种交易模式。(3)交易模式存在时变特性。 金融工程|专题报告 报告发布日期2023年11月14日 杨怡玲yangyiling@orientsec.com.cn 执业证书编号:S0860523040002 刘静涵021-63325888*3211 liujinghan@orientsec.com.cn 执业证书编号:S0860520080003香港证监会牌照:BSX840 TRA:由股票收益率预测器和路由器组成。预测器用于建模不同的股票交易模式,路由器用于预测样本属于哪种交易模式。TRA可以作为一个扩展模块来增强现有的股票预测模型,使其具有学习多种交易模式的能力。 OT:为了防止输出结果集中在个别预测器,将样本到预测器的分配问题表述为一个最优传输问题,并通过一个正则化损失项来指导路由器的学习。 多输入:使用alpha因子和风险因子两类输入数据。不同输入得到的因子低相关,多输入模型进行等权合成,可以进一步提升模型效果。 特征提取:引入注意力机制,transformer模型为更优选择。 路由器输入:利用两种类型的信息作为路由器的输入,用于预测样本的交易模式。特征的潜在表示和预测器的预测误差对路由器都有价值。 多预测器:多个预测器比1个预测器好;预测器不应高度相关,应有差异;预测器应分散配置,不应一直只选择某一个预测器;预测器数量不需要太多。 端对端:TRA是一个端对端模型,直接给出多因子的加权方案,并且对于每个时刻每个股票,加权方式都可以不一样,完全灵活。 合成因子绩效:在中证全指股票池中,TRA模型合成因子得分在测试集(2020-2023年)上rankic16.38%,rankicir1.22(未年化),20分组多头年化超额收益 23.86%,月均单边换手仅57%。样本外未出现衰减,今年表现最好,2023年rankic达到20.18%。因子整体衰减速度较慢,rankic滞后20天仅衰减30%左右。因子中性化后rankic仍有13.88%。随机种子对全市场训练的的TRA模型结果影响很小,5个路径下得到的因子值相关系数在90%左右。 Top组合绩效:在中证全指内,使用TRA模型构建的top100组合,2020年以来年化超额收益达到31.27%,单边年换手8倍,最大回撤21.67%。2021-2023年,每 年相比中证全指的超额收益都在20%以上,2023年到10月19号绝对收益达到 17%,超额收益达到25%。 沪深300指数增强组合:TRA模型在沪深300指增组合中表现突出,2020年以来信息比达到1.87,年化对冲收益超13%,单边年换手仅6倍。每年均取得正超额,2023年到10月19号对冲收益达到10.53%。 中证500指数增强组合:TRA模型在中证500指增组合中表现突出,优于300增强。2020年以来信息比达到1.85,年化对冲收益达14%,单边年换手仅8倍。2020-2023年每年超额都超过10%,2023年到10月19号对冲收益达10%。 中证1000指数增强组合:TRA模型在中证1000指增组合中表现突出,优于300和500增强。2020年以来信息比达2.35,年化对冲收益达18.47%,单边年换手仅8.8倍。2020-2023年每年超额都超过10%,2023年到10月19号对冲收益达10%。 风险提示 1.量化模型失效风险。 2.极端市场环境对模型的影响。 基于残差网络的端到端因子挖掘模型:— —因子选股系列之九十六 DFQ强化学习因子组合挖掘系统:——因子选股系列之九十五 UMR2.0——风险溢价视角下的动量反转统一框架再升级:——因子选股系列之九十四 集成模型在量价特征中的应用:——因子选股系列之九十三 基于时点动量的因子轮动:——因子选股系列之九十二 基于循环神经网络的多频率因子挖掘:— —因子选股系列之九十一 DFQ遗传规划价量因子挖掘系统:——因子选股系列之九十 2023-08-24 2023-08-17 2023-07-13 2023-07-01 2023-06-28 2023-06-06 2023-05-28 有关分析师的申明,见本报告最后部分。其他重要信息披露见分析师申明之后部分,或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。 目录 一、模型概述6 1.1多股票交易模式6 1.2TRA(时域路由适配器,TemporalRoutingAdaptor)7 1.3OT(最优运输,OptimalTransport)8 二、模型核心要点10 2.1多输入:alpha因子+风险因子10 2.2特征提取:注意力机制的引入11 2.3路由器输入:特征潜在表示和预测器的预测误差11 2.4多预测器:寻找不同股票不同时刻适合的预测器12 2.5端对端:直接给出多因子的加权方案13 三、模型说明14 3.1样本空间14 3.2数据区间14 3.3解释变量和预测标签14 3.4数据处理14 3.5损失函数设计15 3.6对抗过拟合技巧15 3.7模型参数17 3.8模型流程17 四、模型结果19 4.1运算用时19 4.2合成因子绩效19 4.3合成因子分年表现21 4.4合成因子衰减速度23 4.5中性化因子表现23 4.6随机种子的影响23 4.7与其他常见量价因子相关性24 五、TOP组合29 5.1top组合构建说明29 5.2top组合业绩29 六、指数增强组合31 6.1指数增强组合构建说明31 6.2沪深300指数增强组合业绩31 6.3中证500指数增强组合业绩32 6.4中证1000指数增强组合业绩34 参考文献36 风险提示36 图表目录 图1:不同机构持股比分组下的动量因子表现(2009.12.31-2023.9.15)6 图2:A股中Momentum、Value、Size三个因子每年的多头超额收益(2007-2020)7 图3:A股中Momentum、Value、Size三个因子的截面回归系数(2007-2020)7 图4:TRA:预测器+路由器框架7 图5:TRA网络架构示意图7 图6:全市场估值因子分域绩效表现(2020.1.1-2023.6.30)10 图7:不同输入下TRA模型因子值spearman相关性(2020.1.1-2023.6.30)10 图8:不同输入下TRA模型绩效表现对比(2020.1.1-2023.7.21)10 图9:不同特征提取方式下TRA模型绩效表现对比(2020.1.1-2023.7.21)11 图10:不同路由器输入下TRA模型绩效表现对比(2020.1.1-2023.7.21)12 图11:多预测器和单一预测器下的TRA模型绩效表现对比(2020.1.1-2023.7.21)12 图12:TRA模型原版5个预测器的相关性(2020.1.1-2023.6.30)12 图13:TRA模型新版5个预测器的相关性(2020.1.1-2023.6.30)12 图14:TRA模型不加OT时5个预测器的表现(2020.1.1-2023.6.30)13 图15:TRA模型加OT时5个预测器的表现(2020.1.1-2023.6.30)13 图16:加OT和不加OT下的TRA模型绩效表现对比(2020.1.1-2023.7.21)13 图17:5个预测器和10个预测器的TRA模型绩效表现对比(2020.1.1-2023.7.21)13 图18:TRA模型预测标签Y不同处理方式绩效表现对比(2020.1.1-2023.7.21)14 图19:TRA模型解释变量X不同处理方式绩效表现对比(2020.1.1-2023.7.21)15 图20:TRA模型X和Y中性化前后绩效表现对比(2020.1.1-2023.7.21)15 图21:TRA模型gumbel-softmax和softmax绩效表现对比(2020.1.1-2023.7.21)16 图22:DFQ-TRA模型主要参数设置17 图23:TRA模型GP输入下训练集和验证集中IC、MSE、MAE、ICIR变化19 图24:TRA模型RISK输入下训练集和验证集中IC、MSE、MAE、ICIR变化19 图25:中证全指股票池各模型因子绩效表现(2020.1.1-2023.9.15)20 图26:沪深300股票池各模型因子绩效表现(2020.1.1-2023.9.15)20 图27:中证500股票池各模型因子绩效表现(2020.1.1-2023.9.15)20 图28:中证1000股票池各模型因子绩效表现(2020.1.1-2023.9.15)20 图29:中证全指股票池各模型因子分年绩效表现(2020.1.1-2023.9.15)21 图30:沪深300股票池各模型因子分年绩效表现(2020.1.1-2023.9.15)21 图31:中证500股票池各模型因子分年绩效表现(2020.1.1-2023.9.15)22 图32:中证1000股票池各模型因子分年绩效表现(2020.1.1-2023.9.15)22 图33:中证全指股票池TRA模型因子衰减速度(2020.1.1-2023.9.15)23 图34:中证全指股票池各模型中性化因子绩效表现(2020.1.1-2023.9.15)23 图35:中证全指股票池TRA模型GP输入下5个随机种子得到的因子值相关系数(2020.1.1-2023.9.15)23 图36:中证全指股票池TRA模型RISK输入下5个随机种子得到的因子值相关系数(2020.1.1-2023.9.15)23 图37:中证全指股票池中各模型因子值相关性(2020.1.1-2023.6.30)24 图38:中证全指股票池中各模型rankic相关性(2020.1.1-2023.6.30)24 图39:沪深300股票池中各模型因子值相关性(2020.1.1-2023.6.30)24 图40:沪深300股票池中各模型rankic相关性(2020.1.1-2023.6.30)24 图41:中证500股票池中各模型因子值相关性(2020.1.1-2023.6.30)24 图42:中证500股票池中各模型rankic相关性(2020.1.1-2023.6.30)24 图43:中证1000股票池中各模型因子值相关性(2020.1.1-2023.6.30)24 图44:中证1000股票池中各模型rankic相关性(2020.1.1-2023.6.30)24 图45:中证全指股票池中两两回归残差绩效表现(2020.1.1-2023.9.15)25 图46:沪深300股票池中两两回归残差绩效表现(2020.1.1-2023.9.15)25 图47:中证500股票池中两两回归残差绩效表现(2020.1.1-2023.9.15)26 图48:中证1000股票池中两两回归残差绩效表现(2020.1.1-2023.9.15)26 图49:中证全指股票池中多模型结合绩效表现(2020.1.1-2023.9.15)27 图50:沪深300股票池中多模型结合绩效表现(2020.1.1-2023.9.15)27 图51:中证500股票池中多模型结合绩效表现(2020.1.1-2023.9.15)27 图52:中证1000股票池中多模型结合绩效表现(2020.1.1-2023.9.15)28