您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[东证期货]:基于机器学习的股指期货周频跨期套利策略构建 - 发现报告
当前位置:首页/其他报告/报告详情/

基于机器学习的股指期货周频跨期套利策略构建

2022-09-30王冬黎东证期货改***
基于机器学习的股指期货周频跨期套利策略构建

深度报告-股指期货 基于机器学习的股指期货周频跨期套利策略构建 报告日期:2022年9月30日 ★策略构建思路 我们选用两合约多空跨期组合的收益率作为目标变量,从A股市场风险收益、套保需求、合约成交持仓情况、基差价差、跨期组合特征五个方面选取特征,使用OLS、XGBoost、随机森林算法分别建立了预测模型,每周在收益率预测绝对值最高组合中的两个合约上建仓,由此构建了周度调仓的跨期套利策略。 ★策略回测结果 预测模型对于不同的输入变量以及不同的参数取值均表股现出了较好的稳健性。机器学习集成算法的预测效果显著优指于普通线性回归,预测R方与策略收益均是机器学习算法占 期优,其中随机森林的预测效果最好。我们认为跨期组合特征 与价差之间具有非线性的相关关系,使得树模型的表现在此 货场景中优于普通线性模型。 不加杠杆、不考虑交易冲击成本的情况下,中证500股指期货跨期套利策略年化收益7.39%,年化波动1.84%,最大回撤1.05%,收益风险比4.02,收益回撤比7.03,换手率年均79倍。由于不同品种的波动差异,IC、IF、IH上的跨期套利 策略收益空间依次递减。沪深300股指期货跨期套利策略年化收益4.63%,收益风险比3.25;上证50股指期货跨期套利策略年化收益3.92%,收益风险比2.88。 由于策略换手率较高,测试了策略对交易成本的敏感性:IC、IF、IH单边交易冲击成本分别达到约6bp、4bp、3bp时,策略的收益风险比将降至1以下。 ★策略应用展望 本文构建的跨期套利策略一方面适合追求绝对收益、交易冲击成本较低的小规模资金,策略风险较小;另一方面跨期信号对套保持仓的展期也有一定指导意义。 ★风险提示 模型基于历史数据构建,未来市场风格的变动可能导致现有模型不适用。 王冬黎高级分析师(金融工程) 从业资格号:F3032817投资咨询号:Z0014348 Tel:8621-63325888-3975 Email:dongli.wang@orientfutures.com 联系人:常海晴 从业资格号:F03087441 Tel:8621-63325888-4191 Email:haiqing.chang@orientfutures.com 重要事项:本报告版权归上海东证期货有限公司所有。未获得东证期货书面授权,任何人不得对本报告进行任何形式的发布、复制。本报告的信息均来源于公开资料,我公司对这些信息的准确性和完整性不作任何保证,也不保证所包含的信息和建议不会发生任何变更。我们已力求报告内容的客观、公正,但文中的观点、结论和建议仅供参考,报告中的信息或意见并不构成交易建议,投资者据此做出的任何投资决策与本公司和作者无关。 有关分析师承诺,见本报告最后部分。并请阅读报告最后一页的免责声明。 目录 1、研究背景3 2、目标变量设定与策略构建思路3 3、跨期组合收益率的统计分布特征4 4、特征选取6 4.1、A股市场风险收益特征6 4.2、套保需求8 4.3、合约成交持仓情况9 4.4、基差价差10 4.5、跨期组合特征11 4.6、特征的进一步筛选与降维12 5、模型建立与策略回测结果13 5.1、数据预处理13 5.2、训练集与样本集的划分13 5.3、模型设定与参数敏感性测试13 5.4、特征重要性解释17 5.5、交易冲击成本影响19 6、策略应用展望21 7、风险提示21 1、研究背景 跨期套利是基于对不同合约间价差的预测,在不同合约上建立方向相反、数量相当的头寸,获取合约间价差变化的收益。跨期套利策略的经典思路为统计套利与无风险套利,即在价差偏离正常区间或无风险套利区间时,给出套利信号。但是我国的股指期货合约间价差受到较多外生变量影响,仅依靠价差的历史数据进行统计套利效果较差;另外融券做空成本较高,期现套利机制不完善,无风险套利区间的上下界难以界定,也限制了无风险套利策略的发挥。 结合我国股指期货当前的市场环境与行情,股指期货低频的中长周期跨期套利仍有一定的盈利空间。我们回归到跨期套利的本质,基于对价差的预测构建低频的跨期套利策略,对交易成本的容忍度更高,同时对展期策略也有一定的参考价值。 2、目标变量设定与策略构建思路 股指期货同时存续的4个合约构成6组价差,为了确保预测目标与策略构建的一致性,我们选用两合约多空跨期组合未来k个交易日的年化收益率作为预测的目标变量: Y(C,C ,k)(Pf,tkPn,tk)(Pf,tPn,t)250 tnf Pf,t Pn,tk 其中,Yt(Cn,Cf,k)表示在t日,做多等手数的远期合约Cf与做空近月合约Cn构 成的跨期组合未来k个交易日的年化收益率;Pf,t和Pn,t分别表示远期合约与近月合约 在t日的收盘价。在每个交易日,有小于6组的k个交易日后尚未到期的跨期价差组合,因此每个交易日我们有不只1个需要预测的样本。根据预测结果构建策略时,我们选择收益率预测绝对值最高组合中的两个合约构建跨期套利组合:若预测收益率为正则做多该组合,预测收益率为负则做空该组合。 设定不同的目标变量收益率的计算周期,取k=5、10、20,将跨期组合未来5日、10日、20日的收益率作为预测的目标变量;收益率预测窗口长度与最终落实到策略的 调仓周期则是相互独立的,比如可以根据未来5日收益率的预测结果进行日度的调仓, 也可以根据未来20日收益率的预测结果进行周度的调仓。 预测模型方面,选取OLS、XGBoost、随机森林(RandomForest)三种模型进行训练与预测,三种算法分别在各自的算法类别中具有较强的代表性:OLS作为线性模型的代表;XGBoost与随机森林则分别是基于非线性的学习器的两种典型集成学习方法的代表。集成学习方法有两大类典型算法,一是个体学习器间存在强依赖关系、串行训练一系列分类器的的Boosting方法,XGBoost算法是Boosting中比较典型和高效的算法;二是个体学习器之间不存在强依赖关系、通过自助采样同时训练多个分类器的Bagging方法,随机森林则是Bagging方法中的典型算法。 图表1:预测跨期收益率并构建交易频率为�日的跨期套利组合流程 资料来源:东证衍生品研究院 3、跨期组合收益率的统计分布特征 建立预测模型对目标变量分布的稳定性有一定的要求,因此首先考察目标变量的分布情况。对于一个定价较为充分的期货市场,到期期限不同的合约间价差应当服从均值为0的正态分布;从历史数据看,我国的股指期货定价经历了从不充分到较为充分的发展历程。 时序维度上看,2015年至今股指期货的基差价差分布发生了巨大变化:2015-2016年股指期货上市初期遭遇股灾限仓,期指定价极不充分,跨期组合的收益率分布十分分散,甚至无法形成正态分布;2016年后随着股指期货的逐渐松绑,股指期货的定价效率逐渐提高,跨期组合的收益率分布也逐渐向正态分布靠拢,分布形状的尾部有越来越薄的趋势,代表着套利收益空间在逐步缩减。可以看到2015-2016年目标变量的分布特征 与2017年后的分布特征有显著差异,因此设定训练样本的起始时间从2017年开始。2017 年后的收益率分布特征较为一致,这也为我们建模预测奠定了基础。 截面维度上看,合约间的到期期限相差越大,则价差以及价差的波动越大,跨期组合收益率的分布也就越平坦,尾部越厚,代表着套利收益空间会随着合约到期月份之差的增加而增加。这也启发我们在后续的建模中,有必要将合约到期月份之差作为一个特征,用以区分到期月份差异不同的跨期组合。 除此之外,在合约交割日当天,由于收盘价会向合约结算价靠拢,收盘基差与价差容易大幅偏离正常水平,为了防止异常值影响模型的稳健性,涉及交割日收盘价的数据做了删除处理。 图表2:到期月份相差1、2、3个月的跨期组合5日年化收益率分布 到期期限相差1个月到期期限相差2个月到期期限相差3个月 资料来源:Wind,东证衍生品研究院 4、特征选取 在之前的专题报告中我们总结了股指期货基差分析的三因子框架,探讨了股指期货基差期限结构的特点,得到了股指期货的基差与价差变化具有一致性的结论,因此在选取特征时,我们参考基差的影响因素,并额外加入了跨期组合特有的特征,构成预测跨期组合收益率的因子池。预测跨期组合收益率所选特征可以分成五大类:A股市场风险收益特征、套保需求、合约成交持仓情况、合约基差与价差、跨期组合特征。 4.1、A股市场风险收益特征 A股市场的短期以及长期风险收益特征对股指期货基差价差均有显著影响。短期来看,当A股市场波动较大,特别是超预期事件驱动宽基指数出现大涨和大跌时,股指期货上的投机力量往往会突然增加,具体体现为合约的成交持仓比攀升,此时不再是套保移仓换月而是投机交易更易驱动基差价差变化。 长期来看,A股市场的风险收益特征也会影响到Alpha收益、中性策略收益、CTA策略收益,进而影响到股指期货的套保、投机以及套利收益,间接地对股指期货的基差价差产生影响。 最终我们从收益、波动、换手率、市场风格四个方面选取了衡量A股市场风险收益特征的变量,如表3所示。收益方面,选取期货标的指数的收盘价、收益率数据和Wind全A指数的收盘价与收益率数据;波动方面,选取期货标的指数的历史波动率,以及指数成分股收益率的横截面标准差(成分股收益率之差可以表征潜在的Alpha收益空间);换手率方面,选取了Wind全A指数的换手率与期货标的指数的换手率指标;市场风格方面,选取了主要宽基指数之间的收益率之差、收益率之差的波动率以及换手率的比值。 图表3:A股市场风险收益特征相关变量(以IC为例) 变量类别 变量标签 变量名称 参数k取值 收益 IC_AINDEX_CLOSE 中证500指数收盘价 IC_AINDEX_RET 中证500指数k日收益率 1,5,10,20,60 WINDA_CLOSE WIND全A收盘价 WINDA_RET WIND全A指数k日收益率 1,5,10,20,60 波动 IC_AINDEX_MEMBERS_DISPERSION_DQ 中证500指数成分股日度收益率横截面标准差 IC_AINDEX_MEMBERS_DISPERSION_MQ 中证500指数成分股月度收益率横截面标准差 IC_AINDEX_MEMBERS_DISPERSION_WQ 中证500指数成分股周度收益率横截面标准差 IC_AINDEX_RET_STD_LAG 中证500指数k日波动率 5,10,20,60 换手率 ASHARE_TURNOVER_FREE WIND全A换手率(移动k日平均) 5,10,20,60 IC_AINDEX_TURNOVER_FREE 中证500指数换手率(移动k日平均) 5,10,20,60 市场风格 STYLE_1000_300_RET 1000指数与300指数k日收益率之差 1,5,10,20,60 STYLE_1000_300_RET_STD 1000指数与300指数k日收益率之差波动率 5,10,20,60 STYLE_1000_50_RET 1000指数与50指数k日收益率之差 1,5,10,20,60 STYLE_1000_50_RET_STD 1000指数与50指数k日收益率之差波动率 5,10,20,60 STYLE_1000_500_RET 1000指数与500指数k日收益率之差 1,5,10,20,60 STYLE_1000_500_RET_STD 1000指数与500指数k日收益率之差波动率 5,10,20,60 STYLE_300_50_RET 300指数与50指数k日收益率之差 1,5,10,20,60 STYLE_300_50_RET_STD 300指数与50指数k日收益率之差波动率 5,10,20,60 STYLE_500_300_RET 500指数与300指数k日收益率之差 1,5,10,20,60 STYLE_500_300_RET_STD 500指数与300指数k日收益率之差波动