您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[东方证券]:因子选股系列之一〇八:dd-Ensemble:基于知识蒸馏的alpha因子挖掘模型 - 发现报告
当前位置:首页/其他报告/报告详情/

因子选股系列之一〇八:dd-Ensemble:基于知识蒸馏的alpha因子挖掘模型

2024-08-19杨怡玲东方证券G***
因子选股系列之一〇八:dd-Ensemble:基于知识蒸馏的alpha因子挖掘模型

KD-Ensemble:基于知识蒸馏的alpha因子挖掘模型 ——因子选股系列之一〇八 研究结论 模型改进思路 考虑到在基础版本中我们使用的l2数据集中绝大部分人工因子主要是基于大单构建的,而小单和盘口数据所蕴含的信息量也十分巨大,因此本文将构建一些基于小单和盘口的因子以对l2数据集进行信息补充,从而使得l2数据集反映的日内信息更加 金融工程|专题报告 报告发布日期2024年08月19日 杨怡玲yangyiling@orientsec.com.cn 执业证书编号:S0860523040002 陶文启taowenqi@orientsec.com.cn 充分从而给全模型带来增量效果。 基于知识蒸馏的思想在因子单元加权阶段将树模型和神经网络进行集成,先通过教师模型对信息进行过滤,之后将过滤得到的有效信息提供给学生模型进行训练,从而让学生模型能更有效的学习。通过知识蒸馏方法,我们希望集成后的模型既能继承树模型能较好处理分类型数据和泛化能力强的优势,又能继承神经网络能够较好拟合极度非线性函数的优势。 今年年初基于量价的机器学习因子出现了较大回撤,原因在于模型预测的市场风格与真实环境出现了较大偏差,因此我们在alpha因子生成阶段加入风险因子生成部分,并二者相互正交从而抑制alpha因子中这种可能带来较大回撤的轮动成分。 小单和盘口因子的实验结论 小单早盘占比、小单早盘净流入和小单收益率因子在各个股票池上表现均较好,但按分位数划分的表现整体强于按金额划分。小单早盘占比因子在大盘股上的表现整体强于小盘股。 按照中位数划分的小单占比因子在中证全指上RankIC均值接近0,但绝对值均值13.22%,胜率接近50%,对未来收益有着较好的解释能力,但预测方向波动较大,可认为该因子可视作一个较好的刻画短期风险的风险因子。 合成因子的实验结论 基于知识蒸馏合成打分2018年以来在中证全指上周频RankIC均值和年化ICIR分别可达16.69%和8.00,top组年化超额可达51.73%;在沪深300、中证500、中证1000三个指数上RankIC均值分别为12.22%、12.39%、15.35%,分十组多头年化 超额分别为34.16%、31.38%、41.81%,相较于基准模型,各宽基指数股票池新模 型生成因子的选股能力均有明显提升效果。 基于风险中性模型生成打分在中证全指上周频RankIC和年化ICIR分别为15.83%和8.15,多头组合年化超额可达47.96%,该模型2024年表现十分突出多头组合截至7月31日累计超额29.20%,最大回撤仅-7.48%,稳定性较强。 本文生成因子也可以直接应用于指数增强策略,在各宽基指数上均能获得显著的超额收益,在成分股80%限制和周单边换手率约束为20%约束下,2018年以来,新模型打分构建的Barra风控组合在沪深300、中证500和中证1000增强策略上年化超额收益率分别为16.88%、24.02%和31.38%。 风险提示 量化模型失效 极端市场造成冲击,导致亏损 非线性市值风控全攻略:——因子选股系列之一〇五 融合基本面信息的ASTGNN因子挖掘模型:——因子选股系列之一〇四 基本面因子的重构:——因子选股系列之一〇二 自适应时空图网络周频alpha模型:——因子选股系列之一〇一 周频多因子行业轮动模型:——量化策略研究之七 基于残差网络的端到端因子挖掘模型:— —因子选股系列之九十六 基于循环神经网络的多频率因子挖掘:— —因子选股系列之九十一 2024-05-27 2024-05-27 2024-03-21 2024-02-28 2024-01-21 2023-08-24 2023-06-06 有关分析师的申明,见本报告最后部分。其他重要信息披露见分析师申明之后部分,或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。 目录 一、引言5 二、Level2数据集的扩充7 2.1回测说明7 2.2小单类因子7 2.3盘口类因子12 2.4与大单类因子相关性分析13 2.5RNN合成因子表现14 三、知识蒸馏和模型集成16 四、风险中性的alpha因子生成18 五、各数据集因子非线性加权结果分析19 5.1中证全指上的表现19 5.2各宽基指数上的表现21 5.3各模型因子相关性及风险暴露分析22 六、合成因子指数增强组合表现23 6.1增强组合构建说明23 6.2沪深300指数增强23 6.3中证500指数增强25 6.4中证1000指数增强27 七、结论29 风险提示30 核心参考文献31 图表目录 图1:端到端AI量价模型框架5 图2:小单早盘占比因子表现(金额)8 图3:小单早盘占比因子表现(中位数)8 图4:小单早盘占比因子(金额)中证全指上表现8 图5:小单早盘占比因子(中位数)中证全指上表现8 图6:小单早盘净流入因子表现(金额)9 图7:小单早盘净流入因子表现(中位数)9 图8:小单占比因子表现(金额)9 图9:小单占比因子表现(中位数)9 图10:小单占比因子(金额)中证全指上表现10 图11:小单占比因子(中位数)中证全指上表现10 图12:小单收益率因子表现(金额)10 图13:小单收益率因子表现(中位数)10 图14:小单收益率(金额)中证全指上表现11 图15:小单收益率(中位数)中证全指上表现11 图16:挂单价格分歧度因子表现12 图17:挂单量分歧度因子表现12 图18:挂单价格分歧度因子(原始值)中证全指上表现13 图19:挂单量分歧度因子(原始值)中证全指上表现13 图20:小单和盘口因子与大单因子相关系数矩阵14 图21:l2数据集合成因子往年表现(20170101~20231231)15 图22:l2数据集合成因子今年表现(20240101~20240731)15 图23:知识蒸馏结构示意图16 图24:基于KD-Ensemble的因子单元加权模型17 图25:风险中性模型网络架构18 图26:中证全指选股汇总表现(回测期20171229~20240731)19 图27:中证全指因子各分组超额表现19 图28:中证全指各年度多头组合选股表现(回测期20171229~20240731)20 图29:各宽基指数上选股表现(回测期20180101~20240731)21 图30:各模型生成因子相关系数矩阵(左上Pearson右下Spearman)22 图31:各模型生成因子风险暴露情况22 图32:沪深300指增Barra风控组合分年度超额收益率(回测期20171229~20240731)23 图33:沪深300指增Barra风控组合汇总结果(回测期20171229~20240731)24 图34:沪深300指增NLSize风控组合分年度超额收益率(回测期20171229~20240731)24 图35:沪深300指增NLSize风控组合汇总结果(回测期20171229~20240731)24 图36:沪深300指增Barra风控组合净值走势25 图37:沪深300指增NLSize风控组合净值走势25 图38:中证500指增Barra风控组合分年度超额收益率(回测期20171229~20240731)25 图39:中证500指增Barra风控组合汇总结果(回测期20171229~20240731)26 图40:中证500指增NLSize风控组合分年度超额收益率(回测期20171229~20240731)26 图41:中证500指增NLSize风控组合汇总结果(回测期20171229~20240731)26 图42:中证500指增Barra风控组合净值走势27 图43:中证500指增NLSize风控组合净值走势27 图44:中证1000指增Barra风控组合分年度超额收益率(回测期20171229~20240731)27 图45:中证1000指增Barra风控组合汇总结果(回测期20171229~20240731)28 图46:中证1000指增NLSize组合分年度超额收益率(回测期20171229~20240731)28 图47:中证1000指增NLSize组合汇总结果(回测期20171229~20240731)28 图48:中证1000指增Barra风控组合净值走势29 图49:中证1000指增NLSize风控组合净值走势29 一、引言 随着机器学习学科的高速发展,以神经网络、决策树为主的机器学习模型在量化领域的应用受到相关研究人员的广泛关注,前期报告《基于循环神经网络的多频率因子挖掘》、《基于残差网络端到端因子挖掘模型》、《自适应图神经网络周频alpha模型》和《融合基本面信息图神经网络因子挖掘模型》中,我们利用循环神经网络(RNN)、残差网络(ResNets)、自适应图神经网络(ASTGNN)和决策树模型搭建了端到端AI量价模型框架,这套框架的输入是个股最原始的K线数据、个股的基本面特征以及一些人工合成的日频level2因子等,而最终的输出则是具有较强选股能力的alpha因子。我们将其该框架生成的因子应用于选股策略。回测结果显示该模型生成的alpha因子在样本外有着十分显著的选股效果。 这套AI量价模型框架主要是基于多个不同频率的量价数据集以及基本面数据集搭建的,这些数据集分别是周度(week)、日度(day)、分钟线(ms)、Level-2(l2)数据集以及基本面数据集(fund)。其中周度和分钟线数据集我们分别是将每五个交易日日K线和每日半小时K线形成矩阵数据,然后将这些矩阵通过ResNets提取出相应时间频度的特征向量,接着将ResNets提取的特征向量按照时间先后输入到RNN模型中进行时序学习,最终获得相应数据集的alpha因子。数据集day则是直接将预处理好的日K线数据通过RNN模型提取出相应的alpha因子。数据集fund中基本面特征由于其噪声含量高、离群值点较多,我们则是采用《基本面因子重构》中做法,将原始基本面因子在每个交易日截面对数回归取残差对因子值进行重构,接着再经过一定的预处理后将数据直接输入RNN模型中进行特征提取。量价数据集中只有Level-2数据集是一些人工合成的日频alpha因子,这些alpha因子主要是基于大单所构建的。 整个AI量价模型框架分为三个部分,数据预处理、提取因子单元、因子单元动态加权。数据预处理包括对输入特征进行去极值、标准化和补充缺失值三个步骤,而提取因子单元则是通过将 预处理好后的特征或者残差网络提取得到的特征通过RNN和图模型转化成一系列具有一定选股能力的弱因子,因子加权则是利用决策树对这些不同数据集上生成的弱因子进行短周期非线性加权形成模型最终的个股得分,部分整个流程如下图所示: 图1:端到端AI量价模型框架 数据来源:wind、上交所、深交所、东方证券研究所 本文则是在上述量价模型框架的基础上,针对原模型可能存在的一些不足做了以下三个方面的改进: 1.考虑到l2数据集中使用的人工因子主要是基于大单构建的而小单和盘口数据所蕴含的信息量也十分巨大,因此本文将构建一些基于小单和盘口的因子以对l2数据集进行补充,从而使得l2数据集反映的日内信息更加充分从而给全模型带来增量。 2.考虑到因子单元动态加权使用的是决策树模型,相较于神经网络,决策树优点在于泛化能力较强,且适合处理分类数据,但其拟合能力相对神经网络较弱,且只能拟合局部线性函数,对于极度非线性部分的函数关系,神经网络可能更有优势。基于此想法本文采用了知识蒸馏方法来对树模型和神经网络进行集成以捕捉alpha因子与未来收益率局部线性与非线性函数依赖关系,从而使得全模型有更好的表达能力。 3.今年年初各类基于量价的机器学习因子出现了较大回撤,这个回撤原因在于模型学习出的风格轮动信息与市场真实环境出现了较大偏差,因此我们在alpha因子生成阶段加入风险因子生成部分,并让alpha因子与风险因子相互正交从而抑制这种带来风险的轮动成分。 二、Level2数