您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[华泰期货]:量化专题报告:基于多因子体系的基差预测模型 - 发现报告
当前位置:首页/其他报告/报告详情/

量化专题报告:基于多因子体系的基差预测模型

2024-08-06高天越、李光庭、李逸资、黄煦然、麦锐聪华泰期货金***
量化专题报告:基于多因子体系的基差预测模型

期货研究报告|量化专题报告2024-08-06 基于多因子体系的基差预测模型 研究院量化组 研究员 高天越 0755-23887993 gaotianyue@htfc.com从业资格号:F3055799投资咨询号:Z0016156 联系人 李光庭 0755-23887993 liguangting@htfc.com从业资格号:F03108562 李逸资 0755-23887993 liyizi@htfc.com 从业资格号:F03105861 黄煦然 0755-23887993 huangxuran@htfc.com从业资格号:F03130959 麦锐聪 0755-23887993 mairuicong@htfc.com从业资格号:F03130381 投资咨询业务资格: 证监许可【2011】1289号 摘要 本篇报告在《华泰期货量化策略专题报告20240712:转融通暂停影响简述》基础上展开对股指期货年化基差率相关因子的量化分析。首先用Pearson相关系数以及Distance相关系数来衡量因子的线性与非线性关系,探讨因子在不同预测周期下的表现,并对因子进行筛选;其次构建了基于线性回归模型OLS+Ridge以及非线性的机器学习模型RandomForest和Xgboost的年化基差率预测模型,展示了模型在不同预测周期下的预测效果。在预测周度年化基差率时,Xgboost对目标变量的预测精度表现较好,MSE平均0.044%,涨跌准确率平均57.70%,最高达62.13%。 核心观点 1)公募指增超额和指数正负波动率类因子对年化基差率影响较大。 2)公募指增超额类因子随预测周期变长相关性下降幅度较大,管理人的超额能力对短期内的基差水平影响较大。指数相关因子则无明显下降趋势,现货市场的波动对未来基差走势影响的延续性较强。 3)预测周度年化基差率时,Xgboost对目标变量的预测精度方面表现较好。 目录 摘要1 核心观点1 基于多因子体系的基差预测模型4 ■股指期货基差4 ■因子相关性4 ■多因子模型构建9 ■模型预测效果展示11 ■总结15 ■风险提示15 图表 图1:IF因子有效性与预测周期|单位:无7 图2:IH因子有效性与预测周期|单位:无7 图3:IC因子有效性与预测周期|单位:无7 图4:IM因子有效性与预测周期|单位:无7 图5:每个预测日T的训练集与测试集示意图|单位:无9 图6:模型建立与预测流程图|单位:无10 图7:不同预测周期的准确性—OLS+RIDGE|单位:无11 图8:不同预测周期的准确性—RANDOMFOREST|单位:无11 图9:不同预测周期的准确性—XGBOOST|单位:无11 表1:不同预测周期下因子线性相关统计|单位:无5 表2:不同预测周期下因子非线性相关统计|单位:无8 表3:模型训练及预测效果12 表4:T+5年化基差率模型训练及预测效果|单位:无12 表5:T+5年化基差率涨跌方向预测效果—XGBOOST|单位:无13 表6:T+5年化基差率入选因子前10—XGBOOST|单位:无14 基于多因子体系的基差预测模型 ■股指期货基差 基差是股指期货研究中重点关注的指标之一,是许多对冲、套利策略的构建基础。因此,对基差的预测与判断具有重要的意义。构建一个基差预测模型首先需要结合主观的逻辑,找�与基差相关的因素并用合适的因子去量化这个影响因素,并利用数学模型作为工具,从数据的层面验证它们的相关性,再将有效的因子通过不同方式组合成为预测模型,最后选择适合的标度去衡量模型预测的准确性。在《华泰期货量化策略专题报告20240712:转融通暂停影响简述》中,我们介绍了期现市场中包括融券在内的影响股指期货基差的不同因素与代表因子,这篇我们将介绍因子的筛选以及模型的构建。 ■因子相关性 我们选取了两个寻找因子相关性的度量。一个是Pearson相关系数,用于衡量因子的线性关系,一个是Distance相关系数,由GáborJ.Székely于2005年第一次提🎧,用于衡量因子的非线性关系。Pearson相关系数通过评估两个变量在各自均值距离上的协变趋势来捕捉变量间的线性关系,Distance相关系数则评估它们与其它所有点之间距离的协变趋势,从而捕捉变量间除线性关系之外的依赖关系。因此,Distance相关系数的包容性比Pearson相关系数更强,筛选因子时会将更多的因子判定为有效。另外,与Pearson相关系数不同的是,Distance相关系数只能提供相关性的强弱。它的取值范围为[0,1],越接近1则相关性越强,但无法提供相关性的正负方向。 我们将模型的预测目标变量Y定为t+n,n[1,60]的下季连续合约的年化基差率(经过分红调整)。当n取不同值时,我们分别计算Ytn与t时因子Xt的相关系数,旨在捕捉不同预测周期下因子可能存在的相关性差异,观察模型的预测能力是否和 预测周期存在一定关系。 为找到长期有效的因子,我们的数据全样本取2017年至今,用2023年以前的数据计算Pearson和Distance相关系数,初步筛选�一部分有效的因子。所有因子已经过滞后处理,确保在预测日t可以获取;取值范围较大的因子已经过z-score标准化处理。 我们先来看看因子与目标变量在不同预测周期下整体的线性相关性统计。 表1:不同预测周期下因子线性相关统计|单位:无 标的因子保留次数Pearsoncorr平均值 公募指增60日累计超额 60 -0.495 指数前一日收盘价60-0.402 指数90日负向波动率60-0.249 指数成分股融券余额60-0.237 11月哑变量580.230 IF 6月哑变量 38 -0.212 融券对冲需求比60-0.201 公募指增10日累计超额极端涨幅53-0.185 公募指增10日累计超额极端跌幅600.174 指数90日累计收益率45-0.173 指数前一日收盘价60-0.544 指数成分股融券余额60-0.428 融券对冲需求比60-0.457 公募指增60日累计超额60-0.318 指数60日负向波动率51-0.226 IH 期货合约沉淀资金60-0.202 公募指增10日累计超额极端涨幅47-0.216 期货合约总持仓量60-0.182 多空力量600.180 多空力量 60 0.464 公募指增60日累计超额60-0.365 指数90日累计收益率60-0.355 指数90日正向波动率60-0.300 指数90日负向波动率60-0.267 IC 期货合约沉淀资金 60 0.233 11月哑变量440.223 指数成分股融券余额550.200 期货多头力量600.182 7月哑变量56-0.180 期货合约总持仓量600.691 指数90日累计收益率38-0.178 期货合约沉淀资金600.691 融券对冲需求比60-0.684 公募指增90日累计超额60-0.673 指数90日负向波动率60-0.663 IM 指数60日累计收益率60-0.637 期货多头力量600.640 指数前一日收盘价60-0.557 指数30日正向波动率600.588 8月哑变量60-0.519 数据来源:同花顺华泰期货研究院 为了在初步筛选时留下更多的因子,我们选择留下Pearson相关系数绝对值大于0.1,同时p-value小于0.1的因子。我们按照不同预测周期下的Pearson相关系数平均值以及在不同预测周期中因子被保留的次数对因子进行排序。相关系数的绝对值越大,说明因子与目标变量的相关性越强,因子被保留的次数越多,说明因子在预测周期变长时有效性的延续性越强。我们在每一类因子中选取相关性最强且具有代表性的因子在上表进行展示。从表中的结果我们可以看到,不同标的下,相关性强的因子有一定差异,但有部分因子展示了它们的普适性,如公募指增超额、指数负向波动率、指数累计收益率、指数收盘价和月份哑变量。 在不同时间窗口下,60日或90日的公募指增超额与年化基差率的相关性最强,且呈负相关。这验证了我们前期的推测,对冲需求随着超额的增大而上升时,体现在基差上的反应则是贴水扩大,且传导到基差上的反应需要一定时间,时间窗口越短,与基差的相关性普遍更弱。 指数90日负向波动率与年化基差率呈负相关,当指数的负向波动率增大时,市场的做空情绪可能会相应增加,反应到基差上则是贴水扩大。而正向波动率的相关性从数据结果来看更不稳定,IC的年化基差率和指数正向波动率呈负相关,IF则呈弱正相关(未被入选在表中展示)。我们可以推测,市场认为中证500的正向波动比 起沪深300来说更不可持续,反转效应较强,所以在正向波动大的时候会带来一部分做空力量入场,使得贴水扩大。反转与动量效应也与选择的时间窗口有关,拿IM举例,5/10/20/30/60日的正向波动率都与年化基差率呈正相关,而90日的正向波动率则呈负相关。 指数60/90日累计收益率和收盘价与年化基差率呈负相关,而在更短的时间窗口下相关性则可能呈相反的情况。现货市场短时间内的涨幅会对基差造成正向影响,而长时间的涨幅更可能引发反转效应,使得做空力量增加,从而对基差造成负向影响。 从月份哑变量的结果来看,经过分红调整后的年化基差率仍存在一定季节性,分红高峰期的6/7月相关性普遍为负,10/11月相关性为正。 (以上提到的部分因子因相关系数较小未被入选在表中展示)其次我们可以观察因子在不同预测周期下的具体表现。 图1:IF因子有效性与预测周期|单位:无图2:IH因子有效性与预测周期|单位:无 数据来源:同花顺华泰期货研究院数据来源:同花顺华泰期货研究院 图3:IC因子有效性与预测周期|单位:无图4:IM因子有效性与预测周期|单位:无 数据来源:同花顺华泰期货研究院数据来源:同花顺华泰期货研究院 我们选取每个标的下相关系数平均值的绝对值最大的因子,观察它们的相关性在预测周期变长时是否发生一定变化。从上图我们可以看到,不同时间窗口的公募指增超额在4个标的中相关性都排名靠前。但当预测周期变长时,除IH外,其它标的的指增超额类因子相关性下降较快,时间窗口越长,前期的相关性越强,但下降的速度也越快,说明管理人的超额能力对短期内的基差水平影响较大。其它因子如指数收盘价、指数收益率、指数波动率则无明显单调下降趋势,说明现货市场的涨跌对未来基差走势影响的延续性较强。有部分期货市场因子如沉淀资金、持仓量的相关性则呈先升后降的趋势,说明此类因子对基差的影响有一定的滞后性。 接下来我们看看从Distance相关系数的角度下因子相关性是否发生一定变化。 表2:不同预测周期下因子非线性相关统计|单位:无 标的因子出现次数Distancecorr平均值 公募指增60日累计超额 60 0.477 指数前一日收盘价600.378 指数90日负向波动率600.262 指数成分股融券余额600.259 11月哑变量600.242 IF 7月哑变量 48 0.226 融券对冲需求比600.226 指数60日正向波动率600.222 期货多头力量600.191 公募指增10日累计超额极端涨幅590.185 指数前一日收盘价600.537 指数成分股融券余额600.446 融券对冲需求比600.488 期货合约总持仓量600.355 公募指增60日累计超额600.347 IH 期货空头力量600.291 期货合约沉淀资金600.318 指数60日正向波动率600.262 多空力量600.277 多空力量 60 0.458 公募指增60日累计超额600.404 指数90日累计收益率600.378 指数90日正向波动率600.341 期货多头力量600.319 IC 期货合约沉淀资金 60 0.301 期货合约总持仓量600.293 指数90日负向波动率600.287 指数成分股融券余额600.248 11月哑变量500.210 融券对冲需求比600.760 指数90日负向波动率600.245 期货合约总持仓量