DFQ-HIST:添加图信息的选股因子挖掘系统 ——因子选股系列之一百 研究结论 HIST模型(sHareInformationforStockTrendforecasting,基于图的可通过挖掘概念共享信息进行股票趋势预测),由中山大学和微软亚洲研究院合作在2022年1月发布于arXiv。 DFQ-HIST模型在原文模型基础上进行修改和优化,是一种新的股票趋势预测框架,能够充分挖掘股票预定义概念和隐藏概念中的动态共享信息:(1)刻画股票联动现象;(2)引入人工预定义概念,并且考虑到了预定义概念的不完备性和动态变 化性;(3)引入隐藏概念,进一步挖掘股票关联信息;(4)应用注意力机制,将 金融工程|专题报告 报告发布日期2024年02月07日 杨怡玲yangyiling@orientsec.com.cn 执业证书编号:S0860523040002 刘静涵021-63325888*3211 liujinghan@orientsec.com.cn 执业证书编号:S0860520080003香港证监会牌照:BSX840 个股信息和概念信息进行融合;(5)加入股票时序特征编码模块,融合股票自身的历史时序特征信息;(6)使用双重残差学习结构,处理不同模块的信息。(7)相比其他常见图模型,HIST模型效果最好。 DFQ-HIST模型中有几个关键步骤,对提升模型效果都有帮助:(1)多输入:使用基础特征和alpha因子两类输入;(2)多标签:使用未来5日、10日、20日收益 率多个标签;(3)时序特征提取:GRU模型效果最好;(4)融合图信息:添加图信息后可以显著提升多头表现;(5)预定义概念选取:使用公司行业及主营业务构成数据;(6)预定义概念修正:校正预定义概念的共享信息、挖掘缺失的股票概念以及减少不太重要概念的影响可以提升模型性能;(7)隐藏概念挖掘:模型可以挖掘出在预定义概念之外的股票关联;(5)双重残差结构:移除预定义概念模块、隐藏概念模块、移除个体信息模块,或取消残差结构都将降低模型性能。 合成因子绩效:在中证全指股票池中,HIST模型合成因子得分各项表现均明显最强。测试集(2020-2023年)上rankic达到17%,rankicir达到1.34(未年化),20 分组多头年化超额收益29.31%,月均单边换手73%。分组单调性好。因子受行业市值风格的影响较小,因子中性化后表现依然很强,优于其他模型。随机种子对全市场训练的模型结果影响不大,5个路径下得到的因子值相关系数在90%左右。 沪深300指数增强组合:2020年以来年化信息比达到2.27,年化对冲收益 11.55%,年化跟踪误差4.87%,单边年换手7.45倍。 中证500指数增强组合:2020年以来年化信息比达到2.09,年化对冲收益 13.13%,年化跟踪误差6%,单边年换手9.67倍。 中证1000指数增强组合:HIST模型在中证1000指增组合中表现突出:(1)整体表现:2020年以来年化信息比达到3.6,年化对冲收益25.55%,年化跟踪误差 6.39%,单边年换手10.06倍。(2)回撤情况:超额收益净值曲线走势平滑,未出 现长时间失效。超额收益最大回撤仅为4.55%,出现在2023年4月,且回撤持续时间很短。(3)分年表现:2020-2023每年均取得正超额,2023年对冲收益20%。 风险提示 1.量化模型失效风险。 2.极端市场环境对模型的影响。 基于异构图神经网络的股票关联因子挖掘:——因子选股系列之九十九 基于抗噪的AI量价模型改进方案:——因子选股系列之九十八 DFQ-TRA:多交易模式学习因子挖掘系统:——因子选股系列之九十七 基于残差网络的端到端因子挖掘模型:— —因子选股系列之九十六 DFQ强化学习因子组合挖掘系统:——因子选股系列之九十五 UMR2.0——风险溢价视角下的动量反转统一框架再升级:——因子选股系列之九十四 集成模型在量价特征中的应用:——因子选股系列之九十三 基于循环神经网络的多频率因子挖掘:— —因子选股系列之九十一 DFQ遗传规划价量因子挖掘系统:——因子选股系列之九十 2024-01-02 2023-12-24 2023-11-14 2023-08-24 2023-08-17 2023-07-13 2023-07-01 2023-06-06 2023-05-28 有关分析师的申明,见本报告最后部分。其他重要信息披露见分析师申明之后部分,或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。 目录 一、模型概述6 1.1股票联动现象6 1.2预定义概念的不完备性和动态变化性6 1.3预定义概念和隐藏概念7 1.4个股信息和概念信息的融合8 1.5时序信息和图信息的结合8 1.6双重残差学习结构8 1.7不同图模型效果对比10 二、模型核心要点11 2.1多输入11 2.2多标签12 2.3时序特征提取的价值12 2.4图信息的价值13 2.5预定义概念选取13 2.6预定义概念修正的价值13 2.7隐藏概念挖掘14 2.8双重残差结构的价值15 三、模型说明16 3.1数据说明16 3.2对抗过拟合技巧16 3.3代码修改点17 四、模型结果18 4.1运算用时18 4.2合成因子绩效18 4.3中性化因子表现23 4.4随机种子的影响23 4.5与其他量价模型相关性23 五、指数增强组合24 5.1指数增强组合构建说明24 5.2沪深300指数增强组合业绩24 5.3中证500指数增强组合业绩25 5.4中证1000指数增强组合业绩26 参考文献28 风险提示28 图表目录 图1:修正预定义概念示意图7 图2:隐藏概念示例7 图3:隐藏概念示意图7 图4:个股信息和概念信息的融合示意图(预定义概念模块)8 图5:HIST模型框架9 图6:不同图模型效果对比(2020.01.01-2023.09.15)10 图7:不同图模型得分的因子值相关性(2020.1.1-2023.9.15)10 图8:不同图模型得分的rankic相关性(2020.1.1-2023.6.30)10 图9:不同输入下的模型效果对比(2020.01.01-2023.09.15)11 图10:不同输入下模型因子值spearman相关性(2020.01.01-2023.09.15)11 图11:不同输入下模型rankic相关性(2020.01.01-2023.09.15)11 图12:不同标签下的模型效果对比(2020.01.01-2023.09.15)12 图13:不同时序特征提取方式的效果对比(2020.01.01-2023.09.15)12 图14:添加图信息前后的模型效果对比(2020.01.01-2023.09.15)13 图15:Tushare预定义概念分布(2013.06.30-2023.06.30)13 图16:不同预定义概念下的模型效果对比(2020.01.01-2023.09.15)13 图17:预定义概念调整前后的模型效果对比(2020.01.01-2023.09.15)13 图18:隐藏概念分布(2020.01.01-2023.09.15)14 图19:股票与隐藏概念的关联示意图(中证500股票池,2023.08.31)14 图20:双重残差结构中各环节效果对比(2020.01.01-2023.09.15)15 图21:预测标签Y不同处理方式下的模型效果对比(2020.01.01-2023.09.15)16 图22:基础特征输入下训练集、验证集、测试集中IC、rankIC变化(左图IC,右图rankIC)18 图23:alpha因子输入下训练集、验证集、测试集中IC、rankIC变化(左图IC,右图rankIC) ...................................................................................................................................................18 图24:中证全指股票池各模型因子绩效表现(2020.1.1-2023.12.31)18 图25:中证全指股票池各模型分组年化超额收益(2020.1.1-2023.12.31)19 图26:中证全指股票池各模型分年绩效表现(2020.1.1-2023.12.31)19 图27:沪深300股票池各模型因子绩效表现(2020.1.1-2023.12.31)19 图28:沪深300股票池各模型分组年化超额收益(2020.1.1-2023.12.31)20 图29:沪深300股票池各模型分年绩效表现(2020.1.1-2023.12.31)20 图30:中证500股票池各模型因子绩效表现(2020.1.1-2023.12.31)20 图31:中证500股票池各模型分组年化超额收益(2020.1.1-2023.12.31)21 图32:中证500股票池各模型分年绩效表现(2020.1.1-2023.12.31)21 图33:中证1000股票池各模型因子绩效表现(2020.1.1-2023.12.31)21 图34:中证1000股票池各模型分组年化超额收益(2020.1.1-2023.12.31)21 图35:中证1000股票池各模型分年绩效表现(2020.1.1-2023.12.31)22 图36:中证全指股票池各模型中性化因子绩效表现(2020.1.1-2023.12.31)23 图37:中证全指股票池HIST模型基础特征输入下5个随机种子得到的因子值相关系数 (2020.1.1-2023.9.15).............................................................................................................23 图38:中证全指股票池HIST模型alpha因子输入下5个随机种子得到的因子值相关系数 (2020.1.1-2023.9.15).............................................................................................................23 图39:中证全指股票池中各模型因子值相关性(2020.1.1-2023.9.15)23 图40:中证全指股票池中各模型rankic相关性(2020.1.1-2023.6.30)23 图41:沪深300股票池指数增强组合绩效表现(2020.1.1-2023.12.31)24 图42:沪深300股票池指数增强组合超额净值与回撤(2020.1.1-2023.12.31)25 图43:中证500股票池指数增强组合绩效表现(2020.1.1-2023.12.31)25 图44:中证500股票池指数增强组合超额净值与回撤(2020.1.1-2023.12.31)26 图45:中证1000股票池指数增强组合绩效表现(2020.1.1-2023.12.31)26 图46:中证1000股票池指数增强组合超额净值与回撤(2020.1.1-2023.12.31)27 一、模型概述 HIST模型(sHareInformationforStockTrendforecasting,基于图的可通过挖掘概念共享信息进行股票趋势预测),由中山大学和微软亚洲研究院合作在2022年1月发布于arXiv。文章中提出了一种新的股票趋势预测框架,能够充分挖掘股票预定义概念和隐藏概念中的动态共享信息。作者在沪深300和中证100的数据上验证了该模型具有较好的预测效果。原模型代码开源(代码下载网址:https://github.com/Wentao-Xu/HIST),感兴趣的投资者可以自行下载测试。DFQ-HIST模型在原文模型基础上进行