集成模型在量价特征中的应用 ——因子选股系列之九十三 研究结论 本研究旨在揭示量价特征与未来收益率之间的内在联系。我们运用了三个量价数据集,借助三种不同逻辑的模型进行训练,预测标签为未来收益率的五分类。为了处理标签噪音并寻找普适性的逻辑,我们采用了五分类作为标签,借助各类预测概率加权得到最终的量价合成因子。此研究尝试寻找更精细、全面的量价特征以预测未来收益,强调了使用多种时间维度数据和模型预测逻辑的重要性。 在本研究中,我们对日频、日内和Level-2三个特征集以及SVM、XGBoost和Transformer三个模型进行了两两组合。对于每种特征,我们将三个模型的预测得分取平均以得到集成得分,最后我们将这三种特征的集成得分再次取平均,形成了所有量价特征的最终集成得分。这种集成方法深度挖掘了不同特征和模型的独特信 金融工程|专题报告 报告发布日期2023年06月30日 证券分析师杨怡玲 yangyiling@orientsec.com.cn 执业证书编号:S0860523040002 联系人薛耕 xuegeng@orientsec.com.cn 息,提升了预测的准确性和稳健性。 测试采用滚动训练法,选用中证800为样本空间,以过去三年的数据作训练集,接下来一年的数据作测试集,预测目标是未来一周收益率的五分类标签,每类对应的权重分别是-2,-1,0,1,2。模型训练后,对每个测试样本的五类可能性进行加权求和,得出因子值。如某类可能性大,则加权结果将偏向该类对应的值。若五类可能性相似,则结果将接近0。 所用到的三个数据集:日频特征集合了包括收益率、动量、波动率、换手率、特异度,涨跌幅榜单因子和买卖压力指标等61个多维度市场行为指标。日内特征融合了常见的日内特征及基于基于前期报告的日内特征,共81个,覆盖广泛的市场行为。Level-2特征集基于委托订单数据和大单数据,包含15个日度特征,部分早期数据存在缺失,进行了零填充处理。 日频特征集,三者的信息系数相差不大,XGBoost稍优于其他两个模型,XGBoost的RankIC高达8.7%,ICIR为5.5,其在15年牛市结束后的调整阶段仍保持稳定且较高的超额收益。因子均值合并后,IC均值提升至9.7%,年化超额收益为24%。相关性分析中,三种模型的因子值相关性在53%-65%,IC相关性在65%-80%。 日内特征集中,XGBoost显示出最佳的预测能力和风险调整收益率,具有最高的ICIR5.5和夏普比率2.4。SVM有最高的IC达到8.9%,其在2015年超额收益表现突出,可能是因为牛市数据存在明显线性边界。使用集成模型,即各模型输出平均后,RankIC、ICIR最高,达到9.3%和5.6,夏普比率2.3和年化超额收益18.6%也表现良好。三种模型的因子值相关性在58%-65%,IC相关性在77%-82%。 Level-2特征集中,同样也是XGBoost表现出色,RankIC6.2%、ICIR5.1、年化超额收益17%、夏普比率2.5,均超过其他两个模型,预测稳定性较高。整合各模型预测结果的集成模型表现稳健,RankIC7.2%,再次说明多模型整合的重要性。三种模型的因子值相关性在31%-63%,IC相关性在51%-78%。 总体集成模型的RankIC10.8%,ICIR6.0,夏普比率2.8,年化超额收益24.3%,超过三个成分模型,揭示了利用多源数据预测结果集成可以增强预测的全面性,稳定性和准确性,印证了我们的想法。日频数据有最高的RankIC9.7%,日内数据表现和日频类似,Level-2数据的集成模型虽在部分指标上略逊,但与其他两个模型的相关性较低,且在某些年份取得不错超额收益,对其他两个模型形成强有力的互补。 风险提示 量化模型失效风险、市场极端环境冲击 基于时点动量的因子轮动:——因子选股系列之九十二 基于循环神经网络的多频率因子挖掘:— —因子选股系列之九十一 DFQ遗传规划价量因子挖掘系统:——因子选股系列之九十 分析师情感调整分数ASAS:——因子选股系列之八十九 2023-06-28 2023-06-06 2023-05-28 2023-03-28 有关分析师的申明,见本报告最后部分。其他重要信息披露见分析师申明之后部分,或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。 目录 一、理论与假设4 二、合成框架4 三、不同细粒度的量价特征6 四、不同底层逻辑的机器学习模型7 线性模型:LinearSVC7 树模型:XGBoost7 神经网络:TransformerEncoder8 五、因子表现9 日频数据集表现9 日内数据集表现10 Level-2数据集表现12 集成因子的表现13 六、指数增强15 七、总结16 八、风险提示17 九、参考文献17 图表目录 图1:模型集成框架(L2指Level-2,下同)5 图2:滚动训练示例5 图3:分类预测概率加权示例5 图4:日频特征6 图5:日内特征6 图6:SVM原理示例7 图7:XGBoost原理示例8 图8:TransformerEncoder原理示例8 图9:日频数据集各模型表现(中证800,百分号为超额)9 图10:日频集成模型daily_merged净值(右轴为最大回撤)10 图11:日频模型相关性(右上为因子值相关性,左下为IC相关性)10 图12:日内数据集各模型表现(中证800,百分号为超额)11 图13:日内集成模型intra_merged净值(右轴为最大回撤)11 图14:日内模型相关性(右上为因子值相关性,左下为IC相关性)12 图15:L2数据集各模型表现(中证800,百分号为超额)12 图16:日内集成模型l2_merged净值(右轴为最大回撤)12 图17:L2模型相关性(右上为因子值相关性,左下为IC相关性)13 图18:各集成模型表现(中证800,百分号为超额)13 图19:最终集成模型total_merged净值(右轴为最大回撤)14 图20:最终集成模型total_merged分组超额净值对数14 图21:最终集成模型total_merged分组年化收益率14 图22:中证500增强组合分年回测指标16 图23:中证500增强组合净值16 一、理论与假设 本文的主要目的是探寻量价特征和未来收益率所蕴含的底层联系,所用的三个数据集为日频特征、日内特征、Level-2特征,进行训练的三个模型为SVM、XGBoost、Transformer,预测标签为未来收益率的五分类标签,使用各类预测概率加权为最终的量价合成因子。 股票价格的形成是多方力量的共同合力,从价值投资到日内交易,再到毫秒级的算法交易,都从各种维度上推动了新价格的产生,交易者从不同逻辑上产生交易决定,在数据上留下了多种量价特征,从低频的动量,到日内波动,到高频的委托订单,特征所反映的细节在逐步深化,而本文希望能尽量全面地使用量价特征来预测未来收益,就需要考虑数据的多种时间维度和模型的多种预测逻辑。 从特征到标签的过程中,不存在某种模型能够涵盖所有的逻辑,就像物理学中至今仍未存在“大一统”模型来概括所有的物理现象,所以涵盖尽量多、尽量无关的模型,即使在同一个数据集中,也能够大幅提高预测的准确度。预测模型多种多样,文本选取了最有代表性的三种:线性模型、树模型、神经网络,而本文挑选了其中最有代表性的实现:LinearSVC、XGBoost、Transformer,这些模型会挖掘出不同的预测逻辑,合并之后的预测结果有更高的准确度和鲁棒性。 Huang(2005)使用支持向量机(SVM)对股票市场的运动方向进行预测,利用了包括开盘价、最高价、最低价和收盘价等在内的日K特征,Patel(2015)使用了机器学习技术对股票和股票价格指数的变动进行预测,涵盖了日K特征和分钟K特征。Kercheval(2015)使用支持向量机模型对高频限价订单(即Level-2特征)的动态进行建模,以预测股票价格的变动。 处理噪音标签一直是业界研究的热点和难题。收益率作为标签含有大量噪声,通常我们会采用对数变换使其更接近正态分布,并通过模型进行回归预测。然而,实际观察中,我们发现具有大量参数的模型,例如RNN和Transformer,当对噪声标签进行回归预测时,可能容易出现过度拟合的现象。这是因为这些模型在处理长期依赖关系或过度集中注意力时,可能会提取出仅存在于样本内部的规律。因此,在本研究中,我们采取了一个不同的策略:将未来收益率的五分类作为分类标签。这种方法从数据角度对模型进行了正则化约束,降低了对噪声样本的拟合程度,有助于我们寻找到更具普适性的逻辑和规律。 二、合成框架 在我们的研究中,我们对三个特征集和三个模型进行了全面的组合。例如,将日频特征输入SVM模型后得到的测试集结果,我们将其称为"svm_daily"因子,即SVM模型针对日频特征的得分。我们将三个模型(SVM、XGBoost和Transformer)针对日频特征的得分取平均,得到日频特征的集成得分。同样,我们对日内率特征和Level-2特征进行相同的处理,得到对应的集成得分。最后,我们将这三个特征(日频、日内和Level-2)的集成得分取平均,得到所有量价特征的最终集成得分。这种集成方法充分利用了不同特征和模型的独特信息,有助于提升预测的准确性和稳健性。 图1:模型集成框架(L2指Level-2,下同) 数据来源:东方证券研究所 在我们的研究中,我们使用了滚动训练的方法进行模型训练和测试。我们选择中证800作为样本空间,并将时间段t-3到t设定为训练集,时间段t到t+1设定为测试集。这个测试集的时间区间从2013年1月4日延续至2023年6月1日,L2的开始日期是2016年1月4日。针对特定的数据集,我们选择过去三年的样本进行训练,并使用接下来一年的数据作为测试集,在这个过程中,我们采用了三种不同的模型进行训练和测试。 我们的预测目标是股票未来一周收益率的五分类标签,其中,第一类代表空头,第五类代表多头。训练完成的模型将为测试样本的每一类分别提供一种可能性,我们将这五类的权重分别设置为-2,-1,0,1,2,然后计算这五个可能性的总和,得出因子值。比如,如果测试样本属于第一类 (空头)的可能性较大,那么加权结果将会是一个相对较小的值。若五类的可能性相差不大,那么最终值将会接近0。 图2:滚动训练示例图3:分类预测概率加权示例 数据来源:东方证券研究所数据来源:东方证券研究所 三、不同细粒度的量价特征 日频特征集 日频特征集综合了常见的市场行为指标和先前报告中引用的特殊指标。这些特征反映了市场的各种维度,包括收益率、动量、波动率、换手率、特异度,以及涨跌幅榜单因子和买卖压力指标。 动量特征通过交易日的收益率ret_N以及剔除近日的收益率mom_M_N两种方式来衡量;波动性指标包括收益率的标准差vol_N以及特质波动率ivol_N和特异度ivr_N;换手率则通过过去N个交易日换手率的标准差除以均值(tovol_N)和过去N个交易日日均换手率的对数(lnto_N)两种方式进行衡量;市场的流动性指标lnamihud、涨跌幅榜单因子包括涨幅榜单因子(dwf_N)和跌幅榜单因子(dlf_N),这两种因子是基于我们之前的研究《A股涨跌幅排行榜效应》;买卖压力的代表指标为APB。 图4:日频特征 特征ID 特征名 解释 个数 1001-1004 ret_N 过去N个交易日的收益率 4 1005-1010 mom_M_N 过去N个交易日的收益率,剔除最近M日收益 6 1011_1015 vol_N 过去N个交易日收益率的标准差 5 1016-1020 tovol_N 过去N个交易日换手率的标准差除以均值 5 1021-1026 lnto_N 过去N个交易日日均换手率的对数 6 1027-1033 ivol_N 基于过去N个交易日日行情计算的特质波动率 7 1034-104