DFQ机器学习行业轮动模型 ——量化策略系列之八 研究结论 行业轮动的必要性 以基本面为主的行业轮动策略表现不佳:DFQ工业类行业轮动体系基于38个证监会二级行业构建,转化为中信一级行业后会损失较多信息。2020年以来top5行业组合年化超额仅为3.33%。 行业动量轮动策略近两年表现不佳:DFQ行业动量轮动策略2020年以来top5行业组合年化超额仅为3.68%,2023和2024年均未获正超额。 用机器学习选股因子合成行业因子 金融工程|专题报告 报告发布日期2024年11月19日 杨怡玲yangyiling@orientsec.com.cn 执业证书编号:S0860523040002 刘静涵021-63325888*3211 liujinghan@orientsec.com.cn 执业证书编号:S0860520080003香港证监会牌照:BSX840 将机器学习模型训练出的选股因子,按个股市值加权,合成为行业因子,进行行业轮动。vae、xgb模型的多头端top5行业组合整体表现较好,2020年以来top5行业组合年化超额收益可达10%以上。但由于模型的选行业能力只是选股的副产品,行业轮动因子是否有效很大程度上取决于运气,使用起来不够稳健。 DFQ遗传规划行业因子挖掘系统介绍 前期我们开发出了一套高效的DFQ遗传规划因子挖掘系统。模型主要有7点改进:提升初始种群质量,提升每代种群质量,提升每代产生的有效公式数量,避免公式膨胀,动态调整每代进化参数,降低挖掘因子的相关性,避免无效运算。 将DFQ遗传规划因子挖掘系统,迁移到行业上,挖掘行业因子。采用中信一级行业作为轮动标的。挖掘月频因子。采用滚动挖掘方式,每隔一年重新挖掘。训练集采用滑动窗口的方式,长度固定10年,每次向后挪一年。共设计145个特征,140个算子。使用20个路径下多头(top5)行业组合的月均超额收益的最小值作为适应度。 DFQ遗传规划行业因子挖掘系统效果分析 进行一轮15代完整挖掘用时5分钟左右。一轮完成后可产生5个左右适应度超过 0.5%,且互相间相关系数不超过50%的单因子。 2020-2024年用到的277个单因子中,60%的单因子样本外月均多头超额收益为正, 30%的单因子样本外月均多头超额收益超过0.5%。 单因子样本外易失效,频繁挖掘消耗算力。采用长周期挖掘,短周期加权的方法,可以显著提升合成因子表现。动态xgb加权方法下2020年以来top5行业组合年化超额收益11.10%,超额收益最大回撤10.28%,月度胜率61.40%,超额收益夏普比1.16。 DFQ机器学习行业轮动模型效果分析 通过遗传规划方法得到的行业因子,和其他四个由选股因子合成得到的行业因子,相关性非常低,因子值spearman相关性在0%附近。 将vae、xgb、gp三个行业因子等权合成,构建DFQ机器学习行业轮动模型。模型表现十分突出,能实现1+1>2的效果。2020年以来,top5行业组合年化超额收益达到18.42%,超额收益最大回撤7.76%,月度胜率66.67%,超额收益夏普比1.77。 行业轮动模型在指数增强组合中的应用 叠加行业轮动模型来调整行业暴露敞口,可以实现组合收益和稳定性的提升。对于沪深300指数增强组合提升尤其显著。相比于基础组合,年化超额收益可以提高2%,信息比从1.85提升到2.16,超额收益最大回撤从6.53%降低到6.12%。 风险提示 1.量化模型失效风险。 2.极端市场环境对模型的影响。 DFQ-XGB:基于树模型的alpha预测方 案:——因子选股系列之一〇七 DFQ-FactorVAE:融合变分自编码器和概率动态因子模型的alpha预测方案:——因子选股系列之一〇三 DFQ-HIST:添加图信息的选股因子挖掘系统:——因子选股系列之一百 周频多因子行业轮动模型:——量化策略研究之七 DFQ-TRA:多交易模式学习因子挖掘系统:——因子选股系列之九十七 DFQ强化学习因子组合挖掘系统:——因子选股系列之九十五 DFQ遗传规划价量因子挖掘系统:——因子选股系列之九十 行业动量的刻画:——《量化策略研究之六》 2024-08-15 2024-05-14 2024-02-07 2024-01-21 2023-11-14 2023-08-17 2023-05-28 2022-12-01 有关分析师的申明,见本报告最后部分。其他重要信息披露见分析师申明之后部分,或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。 目录 一、行业轮动的必要性6 二、用机器学习选股因子合成行业因子9 三、DFQ遗传规划行业因子挖掘系统介绍12 3.1算法介绍12 3.2模型参数14 四、DFQ遗传规划行业因子挖掘系统效果分析16 4.1模型运行效率16 4.2单因子表现17 4.3合成因子表现24 4.4持仓情况28 4.5绩效归因30 五、DFQ机器学习行业轮动模型效果分析31 5.1模型相关性31 5.2合成因子表现31 5.3持仓情况33 5.4绩效归因35 六、行业轮动模型在指数增强组合中的应用36 6.1指数增强组合构建36 6.2指数增强组合表现36 七、总结39 风险提示39 有关分析师的申明,见本报告最后部分。其他重要信息披露见分析师申明之后部分,或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。 图表目录 图1:29个中信一级行业在2020-2024年度的分年收益(按2024年涨跌幅排列,截止 2024.9.30)6 图2:DFQ工业类行业轮动体系6 图3:以基本面为主的行业轮动策略的绩效表现(2010.1.1-2024.9.30)7 图4:以基本面为主的行业轮动策略的分5组超额收益净值(2010.1.1-2024.9.30)7 图5:DFQ行业动量轮动体系8 图6:行业动量轮动策略的绩效表现(2010.1.1-2024.9.30)8 图7:行业动量轮动策略的分5组超额收益净值(2010.1.1-2024.9.30)9 图8:中证全指股票池各模型的因子模型收益分解汇总(2020.1.1-2024.6.30)9 图9:中证全指股票池各模型的因子模型收益分解汇总(2020年)9 图10:中证全指股票池各模型的因子模型收益分解汇总(2021年)10 图11:中证全指股票池各模型的因子模型收益分解汇总(2022年)10 图12:中证全指股票池各模型的因子模型收益分解汇总(2023年)10 图13:中证全指股票池各模型的因子模型收益分解汇总(2024年)10 图14:tra行业因子的绩效表现(2020.1.1-2024.9.30)11 图15:hist行业因子的绩效表现(2020.1.1-2024.9.30)11 图16:vae行业因子的绩效表现(2020.1.1-2024.9.30)11 图17:xgb行业因子的绩效表现(2020.1.1-2024.9.30)11 图18:DFQ遗传规划价量因子挖掘系统13 图19:DFQ遗传规划价量因子挖掘系统核心改进点13 图20:gp个股因子的绩效表现(2017.1.1-2024.9.30)14 图21:以2010.1.1-2019.11.30为训练集,挖掘出的符合适应度要求的单因子,样本外的绩效表现(2020.1.1-2024.9.30)14 图22:训练区间设置(2020.1.1-2024.9.30)14 图23:DFQ遗传规划行业因子挖掘系统某轮挖掘的运行信息(训练区间:2010.1.1-2019.11.30)16 图24:2020年单因子月均多头超额收益分布17 图25:2021年单因子月均多头超额收益分布17 图26:2022年单因子月均多头超额收益分布17 图27:2023年单因子月均多头超额收益分布17 图28:2024年单因子月均多头超额收益分布18 图29:2020-2024年单因子月均多头超额收益分布18 图30:每年单因子中运算符出现的次数18 图31:2020年F15的绩效表现&分5组超额收益净值&分5组年化超额收益19 有关分析师的申明,见本报告最后部分。其他重要信息披露见分析师申明之后部分,或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。 图32:2020年F41的绩效表现&分5组超额收益净值&分5组年化超额收益19 图33:2021年F32的绩效表现&分5组超额收益净值&分5组年化超额收益20 图34:2021年F27的绩效表现&分5组超额收益净值&分5组年化超额收益20 图35:2022年F70的绩效表现&分5组超额收益净值&分5组年化超额收益21 图36:2022年F53的绩效表现&分5组超额收益净值&分5组年化超额收益21 图37:2023年F40的绩效表现&分5组超额收益净值&分5组年化超额收益22 图38:2023年F65的绩效表现&分5组超额收益净值&分5组年化超额收益22 图39:2024年F10的绩效表现&分5组超额收益净值&分5组年化超额收益23 图40:2024年F4的绩效表现&分5组超额收益净值&分5组年化超额收益23 图41:DFQ遗传规划行业因子挖掘模型的绩效表现(等权,2020.1.1-2024.9.30)25 图42:DFQ遗传规划行业因子挖掘模型的分5组超额收益净值&年化超额收益(等权, 2020.1.1-2024.9.30)25 图43:DFQ遗传规划行业因子挖掘模型的绩效表现(单次弹性网络回归加权,2020.1.1-2024.9.30)25 图44:DFQ遗传规划行业因子挖掘模型的分5组超额收益净值&年化超额收益(单次弹性网络回归加权,2020.1.1-2024.9.30)25 图45:DFQ遗传规划行业因子挖掘模型的绩效表现(单次xgb加权,2020.1.1-2024.9.30)26 图46:DFQ遗传规划行业因子挖掘模型的分5组超额收益净值&年化超额收益(单次xgb加权, 2020.1.1-2024.9.30)26 图47:DFQ遗传规划行业因子挖掘模型的绩效表现(动态xgb加权,2020.1.1-2024.9.30)26 图48:DFQ遗传规划行业因子挖掘模型的分5组超额收益净值&年化超额收益(动态xgb加权, 2020.1.1-2024.9.30)26 图49:2020年动态xgb加权每个月的特征重要性27 图50:2021年动态xgb加权每个月的特征重要性27 图51:2022年动态xgb加权每个月的特征重要性27 图52:2023年动态xgb加权每个月的特征重要性27 图53:2024年动态xgb加权每个月的特征重要性27 图54:DFQ遗传规划行业轮动模型的top5行业组合持仓统计(2020.1.1-2024.9.30)28 图55:DFQ遗传规划行业轮动模型的top5行业组合今年以来持仓明细(2024.1.1-2024.9.30) ...................................................................................................................................................29 图56:东方A股因子风险模型(DFQ-2020)--风格因子列表30 图57:DFQ遗传规划行业轮动模型的top5行业组合的平均相对风格暴露(2020.1.1-2024.9.30)30 图58:不同行业因子的相关性(2020.1.1-2024.9.30)31 图59:不同行业因子的绩效表现(2020.1.1-2024.9.30)31 图60:DFQ机器学习行业轮动模型的绩效表现(2020.1.1-2024.9.30)32 图61:DFQ机器学习行业轮动模型的分5组超额收益净值&年化超额收益(2020.1.1-2024.9.30)32 图62:DFQ机器学习行业轮动模