DFQ-XGB:基于树模型的alpha预测方案 ——因子选股系列之一〇七 研究结论 树模型的训练细节 输入特征的构造:树模型需要人工构造特征来捕捉时间依赖性。以纯截面70特征为输入的模型表现,明显弱于以添加时序信息的430特征为输入的模型,IC低1pct以上,RANKIC低接近2pct,ICIR和RANKICIR也有较大差距,多头年化超额低7pct以上。 数据预处理方案的选择:解释变量X截面上进行稳健的Zscore标准化,减小异常值对标准化结果的影响。预测标签Y截面上进行Zscore标准化。 调参技巧:使用Optuna调参方法,调参后模型在测试集上的效果有明显提高,IC和 金融工程|专题报告 报告发布日期2024年08月15日 杨怡玲yangyiling@orientsec.com.cn 执业证书编号:S0860523040002 刘静涵021-63325888*3211 liujinghan@orientsec.com.cn 执业证书编号:S0860520080003香港证监会牌照:BSX840 RANKIC提高近1pct,多头年化超额提高近4pct。 随机种子的影响:不同种子下得到的模型表现较为接近,IC和RANKIC相差都在 0.5pct以内,多头年化超额相差2pct以内。不同种子下得到的模型相关性很高。 树模型和神经网络模型的比较:相同输入特征下,MLP、GRU模型效果均不如XGB 模型,RANKIC低1pct左右。XGB与两个网络模型的多头超额收益相关性仅60%。树模型的训练效果: 因子整体绩效表现:在各个股票池中,DFQ-XGB模型都能获得与神经网络模型相当 甚至更优的绩效。在中证全指股票池中,DFQ-XGB模型所得到因子的稳定性最强,测试集上IC12.96%,RANKIC15.43%,20分组多头年化超额收益29.58%。 因子多头组表现:在中证全指股票池中,DFQ-XGB模型20分组多头组表现整体较强,累计超额仅低于HIST和FactorVAE模型。XGB模型和HIST、FactorVAE模型的多头超额净值的曲线走势存在差异,波峰波谷恰好相反,呈现出较好的互补性。 因子分年绩效表现:在各个股票池中,DFQ-XGB模型2024年的表现都很突出,尤其多头端。在中证全指股票池中,DFQ-XGB模型2024年的多头表现最优。2024年IC达到15.75%,20分组多头年化超额35.24%,最大回撤5.8%。 多模型集成增量: 多模型相关性:DFQ-XGB模型所得因子与其他模型的相关性都比较低,在中证全指股票池中,DFQ-XGB模型与其他模型日度多头超额收益的相关性在50%以下。 多模型集成表现:在中证全指股票池中,DFQ-XGB模型与DFQ-HIST模型等权合成后效果更佳,达到1+1>2的集成效果。测试集上IC达到13.39%,RANKIC达到17.19%,20分组多头日度超额年化收益率达到36.12%。 Top100组合表现: 在中证全指内,使用DFQ-XGB模型构建的top100组合,绩效表现优于其他模型。 2020年以来年化绝对收益达到25.68%,年化夏普比达到1.17,最大回撤27.28%。指数增强组合表现: 沪深300指数增强组合表现:将XGB、dfqfactor、FactorVAE三个模型得分,按照 1:1:2的权重结合使用,表现可超越任何一个单一模型。2020年以来年化信息比达到 2.53,年化对冲收益14.90%,年化跟踪误差5.56%。 中证500指数增强组合表现:将XGB、TRA两个模型等权结合使用,表现可超越任何一个单一模型。2020年以来年化信息比2.31,年化对冲收益17.65%。 中证1000指数增强组合表现:将XGB、HIST两个模型等权结合使用,表现可超越任何一个单一模型。2020年以来年化信息比达到3.04,年化对冲收益24.06%。 风险提示 1.量化模型失效风险。 2.极端市场环境对模型的影响。 基于风险注意力的因子挖掘模型:——因 子选股系列之一〇六 非线性市值风控全攻略:——因子选股系列之一〇五 融合基本面信息的ASTGNN因子挖掘模型:——因子选股系列之一〇四 DFQ-FactorVAE:融合变分自编码器和概率动态因子模型的alpha预测方案:——因子选股系列之一〇三 基本面因子的重构:——因子选股系列之一〇二 自适应时空图网络周频alpha模型:——因子选股系列之一〇一 DFQ-HIST:添加图信息的选股因子挖掘系统:——因子选股系列之一百 基于异构图神经网络的股票关联因子挖掘:——因子选股系列之九十九 基于抗噪的AI量价模型改进方案:——因子选股系列之九十八 DFQ-TRA:多交易模式学习因子挖掘系统:——因子选股系列之九十七 基于残差网络的端到端因子挖掘模型:— —因子选股系列之九十六 DFQ强化学习因子组合挖掘系统:——因子选股系列之九十五 集成模型在量价特征中的应用:——因子选股系列之九十三 基于循环神经网络的多频率因子挖掘:— —因子选股系列之九十一 DFQ遗传规划价量因子挖掘系统:——因子选股系列之九十 2024-05-29 2024-05-27 2024-05-27 2024-05-14 2024-03-21 2024-02-28 2024-02-07 2024-01-02 2023-12-24 2023-11-14 2023-08-24 2023-08-17 2023-07-01 2023-06-06 2023-05-28 有关分析师的申明,见本报告最后部分。其他重要信息披露见分析师申明之后部分,或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。 目录 一、树模型的训练细节5 1.1训练区间的选择5 1.2样本空间的选择6 1.3输入特征的构造6 1.4数据预处理方案的选择7 1.5基础树模型的选择8 1.6对抗过拟合技巧9 1.7调参技巧9 1.8DoubleEnsemble模型的增量11 1.9随机种子的影响12 1.10树模型和神经网络模型比较12 二、树模型的训练效果13 2.1模型的训练和预测过程13 2.2模型训练趋势14 2.3因子整体绩效表现14 2.4因子多头组表现16 2.5因子分年绩效表现18 2.6因子多头组绩效归因22 2.7中性化因子绩效表现25 三、多模型集成增量26 3.1多模型相关性26 3.2多模型集成表现28 四、Top100组合表现30 4.1Top100组合构建说明30 4.2Top100组合表现30 五、指数增强组合表现32 5.1指数增强组合构建说明32 5.2沪深300指数增强组合表现32 5.3中证500指数增强组合表现34 5.4中证1000指数增强组合表现35 六、总结37 参考文献37 风险提示37 图表目录 图1:树模型训练细节5 图2:不同训练区间下的模型效果对比(2020.01.01-2024.2.1)5 图3:全市场训练vs大市值股票池训练的模型效果对比(2020.01.01-2024.3.31)6 图4:全市场训练vs大市值股票池训练的模型效果对比(2024.01.01-2024.3.31)6 图5:不同输入特征下的模型效果对比(2020.01.01-2024.3.31)6 图6:不同输入特征下的模型特征重要性分类统计(gain,2020.01.01-2024.3.31)7 图7:不同输入特征下的模型特征重要性前十(gain,2020.01.01-2024.3.31)7 图8:两阶段模型效果对比(2020.01.01-2024.3.31)7 图9:不同数据预处理方案下的模型效果对比-解释变量X的处理(2020.01.01-2024.3.31)8 图10:不同数据预处理方案下的模型效果对比-预测标签Y的处理(2020.01.01-2024.3.31)8 图11:XGBoost、LightGBM和CatBoost模型的优缺点对比(2020.01.01-2024.3.31)9 图12:不同基础树模型下的模型效果对比(2020.01.01-2024.3.31)9 图13:XGBoost模型超参数列表10 图14:调参前后的模型效果对比(2020.01.01-2024.3.31)10 图15:添加DoubleEnsemble后的模型效果对比(2020.01.01-2024.3.31)11 图16:不同随机种子下的模型效果对比(2020.01.01-2024.3.31)12 图17:不同随机种子下的模型相关性(2020.01.01-2024.3.31)12 图18:相同特征下,XGBoost模型与MLP模型的模型效果对比(2020.01.01-2024.3.31)12 图19:相同特征下,XGBoost模型与MLP模型的相关性(2020.01.01-2024.3.31)12 图20:树模型和神经网络对比13 图21:训练集、验证集、测试集中IC变化14 图22:训练集、验证集、测试集中rankIC变化14 图23:中证全指股票池各模型因子绩效表现(2020.1.1-2024.6.30)15 图24:中证全指股票池各模型分组年化超额收益(2020.1.1-2024.6.30)15 图25:沪深300股票池各模型因子绩效表现(2020.1.1-2024.6.30)15 图26:中证500股票池各模型因子绩效表现(2020.1.1-2024.6.30)16 图27:中证1000股票池各模型因子绩效表现(2020.1.1-2024.6.30)16 图28:中证全指股票池各模型多头组超额收益净值&回撤(2020.1.1-2024.6.30)16 图29:沪深300股票池各模型多头组超额收益净值&回撤(2020.1.1-2024.6.30)17 图30:中证500股票池各模型多头组超额收益净值&回撤(2020.1.1-2024.6.30)17 图31:中证1000股票池各模型多头组超额收益净值&回撤(2020.1.1-2024.6.30)17 图32:中证全指股票池各模型分年绩效表现(2020.1.1-2024.06.30)18 图33:沪深300股票池各模型分年绩效表现(2020.1.1-2024.06.30)19 图34:中证500股票池各模型分年绩效表现(2020.1.1-2024.06.30)20 图35:中证1000股票池各模型分年绩效表现(2020.1.1-2024.06.30)21 图36:东方A股因子风险模型(DFQ-2020)--风格因子列表22 图37:中证全指股票池各模型的因子模型收益分解汇总(2024年)23 图38:中证全指股票池各模型风格因子收益分解汇总(2024年)23 图39:中证全指股票池各模型的因子暴露汇总(2024年)23 图40:中证全指股票池各风险因子收益(2024年)23 图41:中证全指股票池各模型的因子模型收益分解汇总(2023年)24 图42:中证全指股票池各模型风格因子收益分解汇总(2023年)24 图43:中证全指股票池各模型的因子暴露汇总(2023年)24 图44:中证全指股票池各风险因子收益(2023年)24 图45:中证全指股票池各模型中性化因子绩效表现(2020.1.1-2024.6.30)25 图46:沪深300股票池各模型中性化因子绩效表现(2020.1.1-2024.6.30)25 图47:中证500股票池各模型中性化因子绩效表现(2020.1.1-2024.6.30)25 图48:中证1000股票池各模型中性化因子绩效表现(2020.1.1-2024.6.30)26 图49:中证全指股票池中各模型相关性(2020.01.01-2024.6.30)26 图50:沪深300股票池中各模型相关性(2020.01.01-2024.6.30)27 图51:中证500股票池中各模型相关性(2020.01.01-2024.6.30