期货研究报告|量化专题报告2024-08-26 高频收益如何及何时量化可专预题报测告丨(20下24/8)/26 研究院量化组 研究员 高天越 0755-23887993 gaotianyue@htfc.com从业资格号:F3055799投资咨询号:Z0016156联系人 李光庭 0755-23887993 liguangting@htfc.com 从业资格号:F03108562 李逸资 0755-23887993 liyizi@htfc.com 从业资格号:F03105861 麦锐聪 0755-23887993 mairuicong@htfc.com 从业资格号:F03130381 黄煦然 0755-23887993 huangxuran@htfc.com 从业资格号:F03130959 投资咨询业务资格: 证监许可【2011】1289号 摘要 本报告作为《高频收益如何及何时可预测》系列的下篇,全面展示了高频多因子模型在国内期货市场实证的结果。我们深入分析了模型的预测表现、学习曲线、特征重要性,并探讨了预测区间和日内效应对模型预测能力的影响。最后,我们还探索了模型在实际交易策略中的应用,开发了基于高频因子模型的下单算法,并通过模拟测试比较了其与传统下单算法的性能差异。 核心观点 预测表现:高频多因子模型在RB与FU上最佳模型的样本外R方分别为20.74%及15.05%,均优于文献中的样本外R方中位数10%。 学习曲线:加大样本量对于提升预测效果没有明显帮助;另外,FU比RB更过拟合, LGBM比LASSO更过拟合。 特征重要性:报价不平衡因子、成交收益因子、实际下行波动率因子具备较强有效性。 预测区间:高频收益率在较短区间内的可预测性很强,但随着区间的延长而逐渐减弱。随着预测区间从10个Tick延长到120个Tick,模型的样本外R方从20.74%单调递减至4.94%,样本外方向准确性从64.86%单调递减到53.97%。 日内效应:模型在早晨和下午开盘时段预测表现较弱,且午盘略优于早盘。 下单算法:模拟测试结果表明,基于高频因子的下单算法相比于传统算法,在交易成本上具有显著优势。具体来说,该算法有约75%的几率实现更低的交易成本,平均有 0.15跳的滑点优化。 目录 摘要1 核心观点1 前言4 国内实证结果4 预测表现4 学习曲线5 特征重要性7 预测区间12 日内效应12 实际应用-以下单算法为例14 传统下单算法14 模拟测试14 总结16 参考文献17 图表 图1:RB各模型样本外R方|单位:%4 图2:FU各模型样本外R方|单位:%4 图3:RB各模型样本外方向准确性|单位:%5 图4:FU各模型样本外方向准确性|单位:%5 图5:欠拟合学习曲线(高偏差、低方差)|单位:无6 图6:过拟合学习曲线(高方差、低偏差)|单位:无6 图7:LASSO模型的样本外学习曲线(RB)|单位:无6 图8:LGBM模型的样本外学习曲线(RB)|单位:无6 图9:LASSO模型的样本外学习曲线(FU)|单位:无7 图10:LGBM模型的样本外学习曲线(FU)|单位:无7 图11:报价不平衡因子在LASSO模型中的回归系数(RB)|单位:无8 图12:报价不平衡因子在LASSO模型中的回归系数(FU)|单位:无9 图13:成交收益因子在LASSO模型中的回归系数(RB)|单位:无10 图14:成交收益因子在LASSO模型中的回归系数(FU)|单位:无10 图15:实际下行波动率因子在LASSO模型中的回归系数(RB)|单位:无11 图16:实际下行波动率因子在LASSO模型中的回归系数(FU)|单位:无11 图17:LASSO模型样本外R方(RB)|单位:%12 图18:LASSO模型样本外准确性(RB)|单位:%12 表1:报价不平衡因子特征重要性排名(RB)|单位:无8 表2:报价不平衡因子特征重要性排名(FU)|单位:无9 表3:成交收益因子特征重要性排名(RB)|单位:无10 表4:成交收益因子特征重要性排名(FU)|单位:无10 表5:实际下行波动率因子特征重要性排名(RB)|单位:无11 表6:实际下行波动率因子特征重要性排名(FU)|单位:无11 表7:LASSO模型样本外R方(RB)|单位:%13 表8:LGBM模型样本外方向准确性(RB)|单位:%13 表9:LASSO模型样本外R方(FU)|单位:%13 表10:LGBM模型样本外方向准确性(FU)|单位:%13 表11:各下单算法最优概率(LASSO、RB)|单位:%16 表12:各下单算法平均滑点(LASSO、RB)|单位:跳16 表13:各下单算法最优概率(LGBM、FU)|单位:%16 表14:各下单算法平均滑点(LGBM、FU)|单位:跳16 前言 在《高频收益如何及何时可预测》的上篇和中篇中,我们概述了YacineAjt-Sahalia、JianqingFan等人在其论文《HowandWhenareHigh-FrequencyStockReturnsPredictable?》中的主要发现,并介绍了我们在国内实证的主要流程。在这一篇报告中,我们将分析国内实证的结果,主要包含模型的预测表现、学习曲线、特征重要性,以及预测区间和日内效应对模型预测能力的影响。另外,我们还探索了模型在实际下单策略中的应用,并通过模拟回测的方式比较了其与传统下单算法的性能差异。 国内实证结果 ■预测表现 由于原文献在实证结果环节中主要使用5秒作为日历时钟的预测区间,因此我们也以预测区间5秒(10个Tick)为例,展示各模型在FU和RB上的预测结果。 收益率预测 从40天测试集(Testset)的样本外R方上看,高频多因子模型在RB(螺纹钢)上的预测表现优于FU(燃料油),最佳模型的样本外R方分别为20.74%及15.05%,均优于文献中的样本外R方中位数10%。该结果符合预期,因为我们额外引入了较多新的高频因子,使得模型更能捕捉到订单簿数据中的微观特征。 从模型层面上看,参数模型中的LASSO和Ridge模型以及非参数模型中的LGBM模型整体表现较好。OLS受过拟合及多重共线性影响较大,预测效果逊色于其他参数模型;随机森林模型预测效果最差,有一部分原因是随机森林模型训练效率较低,单次训练时长较久,在有限的时间内难以找到最优的超参数组合。 图1:RB各模型样本外R方|单位:%图2:FU各模型样本外R方|单位:% 样本外R方样本外R方 21%16% 20%15% 19%14% 18%13% 17%12% 16% LassoLightGBMRidgeOLSXGBoostRandom Forest 11% LightGBMLassoRidgeXGBoostOLSRandom Forest 数据来源:天软华泰期货研究院数据来源:天软华泰期货研究院 方向预测 从40天测试集(Testset)的方向准确性上看,高频多因子模型在RB(螺纹钢)上的预测表现同样略优于FU(燃料油),最佳模型的方向准确性分别为64.86%及62.97%,接近于文献中的样本外方向准确性64%。 从模型层面上看,LASSO模型在这两个品种上都是表现最佳的模型。 图3:RB各模型样本外方向准确性|单位:%图4:FU各模型样本外方向准确性|单位:% 样本外方向准确性样本外方向准确性 66%64% 65%63% 64%62% 63%61% 62%60% 61% LassoLightGBMRidgeOLSXGBoostRandom Forest 59% LassoLightGBMRidgeOLSXGBoostRandom Forest 数据来源:天软华泰期货研究院数据来源:天软华泰期货研究院 由于在参数模型中,LASSO模型表现最佳;在非参数模型中,LGBM模型整体表现最佳。因此,我们后文进一步的实证分析仅针对LASSO模型和LGBM模型。 ■学习曲线 在构建机器学习模型时,我们希望尽量减小预测的误差,而误差的来源主要是偏差 (Bias)和方差(Variance)。偏差指的是预测值与真实值的差距,较高的偏差意味着模型欠拟合,即模型没有捕捉到数据的复杂性,导致预测结果与真实结果相差较大。方差指的是模型在不同数据集上预测能力的变化程度。如果一个模型在样本内的数据表现较佳,但在样本外的数据表现显著降低,说明该模型方差较大。在理想情况下,我们希望获得一个偏差低,方差也低的模型,但往往这两者之间存在反向关系,即偏差越大,方差越小。因此,我们需要在这两者之间做�权衡(Bias-VarianceTradeoff),找到两者之间的平衡点,最小化模型的最终误差。 学习曲线(LearningCurve)是训练集和测试集的误差在不同训练集长度下的变化。通过观察学习曲线,我们不仅可以了解预测效果与样本量之间的关系,也有助于判断模型当前是处于过拟合亦或是欠拟合的状态,进而对模型做�进一步调整。 一般而言,当模型测试集的误差较大,且训练的误差和测试集的误差较为接近时,说明模型此时处于欠拟合的状态,偏差较大,方差较小。而当训练集的误差较小,但测 试集与训练集之间的差距较大,说明模型此时处于过拟合的状态,方差较大,偏差较小。 训练集 测试集 训练集长度 训练集 测试集 训练集长度 误差 误差 图5:欠拟合学习曲线(高偏差、低方差)|单位:无图6:过拟合学习曲线(高方差、低偏差)|单位:无 数据来源:华泰期货研究院数据来源:华泰期货研究院 下面的四张图展示了LASSO模型以及LGBM模型在RB和FU上的训练曲线,训练集天数取1天到10天。 可以看🎧,训练集长度对于测试集的MSE影响不大,说明2天的训练集长度已经足够,即便再加大样本量也无法显著提升预测效果。 其次,FU训练集与测试集之间的差值相比于RB而言更大,说明模型在FU上的训练会更加过拟合一些。 最后,LGBM模型在训练集上的表现虽然略优于LASSO模型,但测试集上的表现没有明显优化,说明LGBM模型相比于LASSO模型而言过度拟合了样本内数据,即减小了偏差,但增大了方差。 图7:LASSO模型的样本外学习曲线(RB)|单位:无 图8:LGBM模型的样本外学习曲线(RB)|单位:无 训练集MSE 测试集MSE 3.00E-08 2.50E-08 2.00E-08 1.50E-08 1.00E-08 5.00E-09 0.00E+00 12345678910 训练集MSE 测试集MSE 3.00E-08 2.50E-08 2.00E-08 1.50E-08 1.00E-08 5.00E-09 0.00E+00 12345678910 数据来源:天软华泰期货研究院数据来源:天软华泰期货研究院 图9:LASSO模型的样本外学习曲线(FU)|单位:无 图10:LGBM模型的样本外学习曲线(FU)|单位:无 训练集MSE 测试集MSE 3.00E-08 2.50E-08 2.00E-08 1.50E-08 1.00E-08 5.00E-09 0.00E+00 12345678910 训练集MSE 测试集MSE 3.00E-08 2.50E-08 2.00E-08 1.50E-08 1.00E-08 5.00E-09 0.00E+00 12345678910 数据来源:天软华泰期货研究院数据来源:天软华泰期货研究院 ■特征重要性 LASSO模型的一个优势在于,它通过对特征进行标准化预处理,确保了模型回归系数的可比性。这意味着,回归系数的绝对值能够直接反映各特征在模型中的相对重要性。同样地,LGBM模型也内置了计算特征重要性的功能,这为我们评估不同特征对模型预测的贡献度提供了便利。 为了全面评估各特征的重要性,我们计算了所有40个测试集上模型特征重要性的平均值,并据此进行了排序,以确定每个特征的排名。鉴于涉及的因子数量较多,且篇幅有限,这里仅精选部分因子的结