基于神经网络模型的利率择时 ——宏观固收量化研究系列之(九) 研究结论 近年来,以神经网络、决策树等非线性的机器学习模型在量化投资领域得到了广泛的应用。基于机器学习模型良好的拟合和特征提取能力,我们引入神经网络的相关模型,基于日频的量价因子(特征)进行训练,从而对未来N日的利率涨跌和国债期货涨跌进行预测。 本文的因子库基于成交量、价格动量、价格波动、期限利差水平、期限利差动量、税收利差水平、税收利差动量、期现价差、资金面水平、资金面波动10个大类的日频指标产生,共计779个时序因子。 本文参考Baoetal.(2017)的思路,设计了一个两阶段预测模型(SE-GRU模型),第一阶段是使用稀疏编码器(SparseEncoder)进行多维时间序列的信息提取,即通常所说的降维步骤,第二阶段是对降维后的时间序列使用GRU模型进行监督训练。损失函数由2部分组成,拟合的均方误差损失和稀疏自编码器提取特征的稀疏化约束。 基于SE-GRU模型,可以日频得到“未来N日的利率涨跌和国债期货涨跌”的预测值,从而形成各类标的的日频多空信号。本文选用10年期国债期货主力合约(T)、5年期国债期货主力合约(TF)、10Y国开活跃券、5Y国开活跃券作为回测标的,测试集结果显示,预测变量采用“未来3日”和“未来5日”的收益是较为合意的选择。 样本外的测试集回测结果表明,预测模型取得了不错的绝对收益和相对收益: 对于10年期国债期货,年化收益达到5.98%,收益风险比达2.36,平均交易天数为4.79天/次,其中,多头端年化3.81%,空头端年化2.26%; 对于5年期国债期货,年化收益达到3.42%,收益风险比达2,平均交易天数为5.74天/次,其中,多头端年化2.42%,空头端年化1.02%; 对于10年国开活跃券,年化赚得收益率达到62.03bps,收益风险比达1.5,平均交易天数为8.85天/次;信号用于久期轮动策略年化5.5%,最大回撤1.47%; 对于5年国开活跃券,年化赚得收益率达到63.46bps,收益风险比达1.28,平均交易天数为9.07天/次;信号用于久期轮动策略年化4.32%,最大回撤0.87%; 最后,本文还尝试使用积分梯度法分析预测模型的特征重要性,即各个因子对模型预测产生的影响的大小和排序,可供投资者参考。结果显示,T合约成交量、30Y/10Y国债换手率、利率的动量、资金面水平、现券波动、税收利差等因子贡献较大。 风险提示 量化模型失效的风险 市场极端环境的冲击 金融工程|专题报告 报告发布日期2023年03月12日 邱蕊021-63325888*5091 qiurui@orientsec.com.cn 执业证书编号:S0860519020001香港证监会牌照:BSW115 宋之辰songzhichen@orientsec.com.cn 陶文启taowenqi@orientsec.com.cn 基于量价信息的利率择时探讨:——宏观固收量化研究系列之(八) 2022-12-13 活跃券的均线择时:——宏观固收量化研 2022-03-25 究系列之(六) 有关分析师的申明,见本报告最后部分。其他重要信息披露见分析师申明之后部分,或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。 目录 一、研究背景4 二、模型简介5 2.1时序因子介绍5 2.2预测模型介绍6 1)稀疏编码器模型介绍7 2)GRU模型介绍8 3)损失函数9 三、回测结果9 3.1策略设计9 3.2预测表现11 3.3回测表现12 1)10年期国债期货主力合约12 2)5年期国债期货主力合约15 3)10Y国开活跃券17 4)5Y国开活跃券19 5)长短久期指数轮动22 3.4特征重要性24 四、结论26 风险提示26 附录26 参考文献28 图表目录 图1:预测模型示意图6 图2:稀疏自编码器与稀疏编码器示意图8 图3:RNN示意图8 图4:GRU循环单元结构示意图9 图5:国债期货标的的训练集测试集划分10 图6:利率标的的训练集测试集划分10 图7:各标的不同预测周期N的日度准确率11 图8:各标的不同预测周期N的日度IC11 图9:样本外信号表现(回测标的:10年期国债期货主力合约,回测区间:2021.01-2023.02) .....................................................................................................................................................................................13 图10:做多与做空表现以及信号(回测标的:10年期国债期货主力合约)14 图11:样本外信号表现(回测标的:5年期国债期货主力合约,回测区间:2021.01-2023.02) .....................................................................................................................................................................................15 图12:做多与做空表现以及信号(回测标的:5年期国债期货主力合约)17 图13:样本外信号表现和信号分布(回测标的:10Y国开活跃券利率,回测区间:2017.01-2023.02)18 图14:样本外信号表现(回测标的:5Y国开活跃券利率,回测区间:2017.01-2023.02)21 图15:10Y国开信号用于长短久期轮动22 图16:5Y国开信号用于长短久期轮动23 图17:10Y+5Y国开信号合成的久期策略23 图18:各模型的特征重要性排序(前十)24 图19:所有用到的因子列表27 表1:因子类别5 表2:因子数据集简介5 表3:回测品种与回测设计11 表4:样本外信号表现(回测标的:10年期国债期货主力合约,回测区间:2021.01-2023.02) .....................................................................................................................................................................................12 表5:样本外信号表现(回测标的:5年期国债期货主力合约,回测区间:2021.01-2023.02) .....................................................................................................................................................................................15 表6:样本外信号表现(回测标的:10Y国开活跃券利率,回测区间:2017.01-2023.02)18 表7:样本外信号表现(回测标的:5Y国开活跃券利率,回测区间:2017.01-2023.02)20 一、研究背景 关于利率债市场的量化择时策略,之前我们发布的两篇报告《活跃券的均线择时》、《基于量价信息的利率择时探讨》已有过一定程度的探讨: 1)《活跃券的均线择时:——宏观固收量化研究系列之(六)》中,我们尝试使用技术分析回测数据,而后我们发现,以均线为代表的技术指标存在以下问题: 被动地应对行情,并未对市场进行预测和验证,因此胜率较低; 本质上是趋势跟踪,在拐点来到时反应较为迟钝; 如果是日频级别的技术分析,则极度依赖于市场状态,尤其在震荡市信号变换频率较大,会出现来回亏损的情况; 参数方面,容易出现过拟合,比如往往出现选择训练集最优参数,而在样本外失灵的情况。 2)《基于量价信息的利率择时探讨:——宏观固收量化研究系列之(八)》中,我们尝试挖掘有显著线性关系的、有样本内预测能力的时序单因子,从而对未来期货的涨跌进行多因子合成预测,但依然存在一些问题: 时序因子并不能像股票领域的截面alpha因子一样,贡献较为稳健的超额收益,在不同市场风格下,大多数时序因子表现会出现不同程度的波动,即信号出现失灵; 利率市场较为复杂,线性方法虽然简单,但是拟合程度也相应较低,尤其是对于单因子回归所产生的信号,预测能力较差; 通过筛选因子的方式,最终使用的信息较少,在几百个时序因子中最后筛选出几个较好的因子,最后合成信号只利用到了这几个因子的信息,而剩下的因子仍有很多的信息尚未被利用; 因子之间可能存在复杂的相关性,报告中采用的简单等权的方法可能并非是最好的合成方式 不管是技术分析,还是线性预测,本质上,我们面临的择时问题属于时间序列预测(Timeseriesforecasting,TSF)的问题,这类问题是统计学中非常重要的领域,在医疗监测、交通、能源、气象、金融等领域有着广泛的应用。传统的时间序列模型,如AR系模型,往往基于数据的平稳性假定,捕捉时间序列变量的线性预测。而近些年来,以循环神经网络(RecurrentNeuralNetworks,RNN)为代表的深度学习(DeepLearning)模型发展迅速,由于其复杂的网络结构设计,拟合能力和特征提取能力远超传统机器学习模型,被大量运用在时间序列预测问题上。 近几年中国利率债市场交易主体逐渐活跃,以国债期货、各期限利率债活跃券等品种已经产生了较多量价数据,而资金面、国债/国开收益率曲线也有足够长的历史数据,这也为我们使用复杂模型的拟合提供了可能。 本文尝试设计神经网络模型,使用海量的因子库对国债期货和利率的涨跌进行拟合,从而形成日频的多空择时信号,在此基础上对样本外的历史数据加以回测。 二、模型简介 2.1时序因子介绍 本文特征的数据在《基于量价信息的利率择时探讨:——宏观固收量化研究系列之(八)》中的因子库的基础上,进行了丰富和扩展,共计779个时序因子(含历史分位数和移动平均的平滑处理),具体的因子内容,详见附录。 表1:因子类别 因子数量 日间价格动量 217 成交量 209 期限利差动量 108 日间价格波动 72 期限利差水平 48 资金面水平 42 资金面波动 36 税收利差动量 27 税收利差水平 12 期现价差 8 资料来源:东方证券研究所&Wind资讯 其中,由于国债期货上市时间较晚1,因此对于涉及国债期货的因子和标签(国债期货价格涨跌幅)的样本长度较短,因此,下文根据我们所定义的标签不同,数据分为两大类——含国债期货的数据集和不含国债期货的数据集,如下表所示: 表2:因子数据集简介 数据集时间跨度因子数量标签 含国债期货 2016.05至今 779 未来N日国债期货涨跌幅 不含国债期货 2007.11至今 471 未来N日国开利率涨跌 资料来源:东方证券研究所&Wind资讯 110年期国债期货于2015年3月在中金所上市 2.2预测模型介绍 近年来以神经网络、决策树等非线性的机器学习模型在量化投资领域得到了广泛的应用。基于机器学习模型良好的拟合和特征提取能力,我们引入神经网络相关模型,对上文所得到的因子数据集(特征)进行训练,从而对未来N日的利率涨跌和国债期货涨跌进行预测。 在使用相关模型进行预测时,一个重要的问题就是在使用数量庞大的特征时,如何对特征进行降维从而剔除噪声和无效信息干扰。为了应对这个问题,常见的做法是人工筛选提取“重要性”较高的特征,然后用这些人工提取的特征进行拟合。这种方法往往计算成本较大,稳定性较差且有着极大的过拟合风险。 为了克服这个问题,