期货研究报告|量化专题报告2024-08-23 高频收益如何及何时量可化预专题测报告?丨(20中24/8)/23 研究院量化组 研究员 高天越 0755-23887993 gaotianyue@htfc.com从业资格号:F3055799投资咨询号:Z0016156联系人 李光庭 0755-23887993 liguangting@htfc.com 从业资格号:F03108562 李逸资 0755-23887993 liyizi@htfc.com 从业资格号:F03105861 麦锐聪 0755-23887993 mairuicong@htfc.com 从业资格号:F03130381 黄煦然 0755-23887993 huangxuran@htfc.com 从业资格号:F03130959 投资咨询业务资格: 证监许可【2011】1289号 摘要 本报告为《高频收益如何及何时可预测》系列报告的中篇,主要介绍了我们在国内期货高频市场的实证分析流程。在上一篇报告中,我们深入探讨了YacineAït-Sahalia和JianqingFan等人的研究成果,为高频收益率的可预测性提供了理论基础。本篇报告则转向实际,详细阐述了我们在国内期货市场的实证研究流程,包括数据集介绍、因子构造、预测目标设定、模型介绍及训练方法。在下一篇报告中,我们将展示国内实证的结果及其在实际交易策略中的应用。 核心观点 研究对象的确定:综合考虑流动性和数据可得性,我们选取上期所的燃料油LU及螺纹钢RB的主力期货合约作为国内实证的研究对象。 高频因子库的构建:由于国内期货市场逐笔成交相关数据的缺失,文献中大部分因子无法复现;基于此,我们启动了一项广泛的高频因子收集和开发工作。最终,我们整理并开发了超过130个高频因子,用于后续模型的输入。 模型选择:在实证过程中,我们主要使用了3种线性回归模型(OLS,Ridge,Lasso)以及3种机器学习回归模型(随机森林、XGBoost、LightGBM)进行拟合。 特征预筛选:由于特征较多(1300+),我们使用了小样本数据进行了特征的预筛选。 模型训练:模型训练流程与原文献基本保持一致,我们使用了总共40个交易日的数据作为验证集,进行模型的样本外验证。 目录 摘要1 核心观点1 前言3 数据集介绍3 因子构造4 预测目标4 线性回归模型5 特征筛选10 模型训练10 总结11 参考文献11 图表 图1:期货高频TICK数据示例丨单位:无3 图2:西瓜好坏判断的决策树示例丨单位:无7 图3:模型调优及测试时间窗口丨单位:无11 前言 在当今金融市场中,高频交易日益成为推动市场流动性和价格发现不可或缺的关键因素。高频交易者的成功在很大程度上归功于其对市场微观结构深入而细致的理解与把握。在上一篇报告中,我们概述了YacineAït-Sahalia、JianqingFan等人在其论文 《HowandWhenareHigh-FrequencyStockReturnsPredictable?》中的主要发现,这些发现为高频收益率的可预测性提供了理论基础和实证依据。在这一篇报告中,我们将详细阐述我们在国内期货市场的实证研究流程,包括数据集介绍、因子构造、预测目标设定、模型介绍及训练方法,希望能让读者能够清晰、系统地理解我们的研究方法论。 ■数据集介绍 研究品种 燃料油FU、螺纹钢RB(综合考虑数据可得性,选取上期所流动性较好的、盘口数据较齐全的2个品种作为研究目标) 合约选取 仅考虑流动性最好的主力合约 时间范围 2023/08/17-2023/11/16 数据字段 日期、时间戳、合约代码、最新成交价、成交量、成交额,持仓量变动、持仓量、涨跌停板、交易方向(基于最新成交价与上一tick最优报价之间的关系确定)、买卖报价及挂单量(五档) 图1:期货高频tick数据示例丨单位:无 数据来源:天软华泰期货研究院 ■因子构造 在原文献中,作者基于限价订单簿及逐笔成交数据构建了13个因子。遗憾的是,国内期货市场的高频数据与国外的股票高频数据存在较大的差异,使得大部分因子无法复现。具体差异如下: 1)国外股票高频数据集中有逐笔成交数据,但国内期货市场难以获取逐笔成交数据。 2)国外股票高频数据集中的报价更新数据的快照精确到了纳秒,但国内期货交易所一般1秒推送2个快照数据,即时间间隔为500毫秒。这500毫秒期间发生的具体 挂单及交易无从得知,仅能从当前盘口与500毫秒前盘口之间的相对关系加以推测。 另外,在上一篇报告中我们提到过,文献中使用3个时钟来定义区间,分别是日历时钟、成交时钟以及成交额时钟。日历时钟就是最常见的时间维度(未来n秒的区间收益率及方向),成交时钟则将交易笔数作为衡量区间的尺度(未来n笔交易的区间收益 率及方向),而成交额时钟则是将成交金额作为衡量区间的尺度(未来n美元交易的区间收益率及方向)。由于我们仅有限价订单簿数据,没有逐笔成交相关的数据,因此我们在后续的实证过程仅考虑日历时钟。 在文献构造的13个因子中,仅总成交量因子,报价不平衡因子,成交不平衡因子,历 史收益因子、换手率因子、报价价差因子这6个因子可以在国内期货市场复现(因子具体构造方式请参考《华泰期货量化策略专题报告20240621:做市高频系列(十六)高频收益如何及何时可预测(上)》)。基于初步测试结果,我们发现仅依赖这六个因子构建的模型在预测表现上并不理想。为了进一步提升模型的预测能力,我们启动了一项广泛的高频因子收集和开发工作。最终,我们整理并开发了超过130个高频因子,并将其纳入华泰期货的高频因子库中。 回溯区间 对于每个因子,我们都会求其在不同回溯区间的均值作为后续机器学习模型的输入 (特征),以求同时捕捉因子的长期及短期的影响。原文献的回溯区间为过去1tick,过去2-1tick,过去4-2tick,过去8-4tick……过去256tick-128tick共9个回溯区间,这样的构造方式可以保证回溯区间不重合,避免同个因子在不同区间上的因子值之间存在过于明显的多重共线性的问题。然而,经过检验,我们发现这样的构造方式会降低模型在样本外的预测表现,因此我们对原文的回溯区间进行了一定的修改,构造的回溯区间为过去1tick,过去2tick,过去4tick……过去512tick共10个回溯区间。 ■预测目标 我们的预测目标是未来10个Tick(5秒)的收益率,计算方式为未来一段时间内的平均成交价格与当前中间价的比值减一: 考虑到实际交易时将不可避免存在延迟,我们将预测目标的计算向后延迟了一个tick。公式中的T当前时点的下一个Tick,Δ为区间长度(此处为10个Tick),M为所选时钟 (此处为日历时钟)。 在实证过程中,我们主要使用了3种线性回归模型(OLS,Ridge,Lasso)以及3种机器学习回归模型(随机森林、XGBoost、LightGBM)进行拟合,以下是对这些模型的简要介绍: ■线性回归模型 线性回归模型的基本回归方程为: 其中,�是因变量(预测目标),𝜒1,𝜒2,……,𝜒�是自变量(因子值),𝛽0是截距项,𝛽1, 𝛽1,……,𝛽�是回归系数,�是误差项。 以下介绍的三种线性回归的基本回归方程形式是一致的,不同的是最小化的目标函数 (损失函数)。最小二乘法1)简介 最小二乘法(OLS,OrdinaryLeastSquares)是一种常用的线性回归方法,OLS模型假设自变量和因变量之间存在线性关系,并且误差项服从正态分布,具有同方差性和独立性。它通过最小化误差的平方和来寻找数据的最佳拟合线,最小化的目标函数如下: 2)优点 计算简单,容易实现。 模型参数的估计具有最优性质(BLUE,最佳线性无偏估计)。容易进行统计检验和模型诊断。 3)缺点 假设误差项服从正态分布,同方差性和独立性,但真实情况往往不满足。对异常值敏感,容易受到极端值的影响。 在多重共线性的情况下,模型参数估计不稳定。 岭回归 1)简介 岭回归(Ridge)是一种带有L2正则化的线性回归模型,它通过在损失函数中添加一个正则化项来解决普通最小二乘法在多重共线性情况下的参数不稳定问题。正则化项 的系数λ是模型唯一需要调整的超参数,用于控制正则化的强度。该模型最小化的目标函数如下: 2)优点 解决了OLS在多重共线性问题下的参数不稳定问题。通过正则化项控制模型复杂度,避免过拟合。 模型参数估计稳定,适合高维数据。 3)缺点 需要选择合适的正则化系数λ,需要额外的交叉验证。模型参数不再具有无偏性。 对异常值敏感,容易受到极端值的影响。 LASSO回归 1)简介 LASSO回归(Leastabsoluteshrinkageandselectionoperator,最小绝对收缩和选择算子)是一种带有L1正则化的线性回归模型。与岭回归不同,LASSO倾向于产生稀疏的模型系数,即某些系数可以被压缩至零,从而实现特征选择的功能。另外,与岭回归不同,LASSO回归对自变量的缩放较敏感,通常需要对自变量做标准化或归一化处理。 该模型最小化的目标函数如下: 2)优点 通过L1正则化实现特征选择,能排除无效特征。 回归系数的绝对值可以直接横向对比,表征自变量重要性。其他优点同岭回归。 3)缺点 需要对自变量做标准化或归一化处理,泛化能力受限,且模型解释性降低(回归系数不能直接反映原始变量单位对因变量的影响)。 其他缺点同岭回归。 机器学习回归模型 在机器学习领域中,决策树(DecisionTree)是一种模仿人类决策过程的算法,它通过一系列的问题将数据集分割成不同的分支,最终达到预测结果。这种模型的核心在于递归地将数据集划分为更小的子集,并在每个子集上构建决策规则来逼近目标函数。 图2:西瓜好坏判断的决策树示例丨单位:无 数据来源:《机器学习》华泰期货研究院 决策树模型既可以是分类的,也可以是回归的,其核心在于如何选择最优划分属性。对于分类问题,通常使用信息增益、增益率或基尼指数等指标来评估划分的优劣;而对于回归问题,则常采用最小均方误差作为划分标准。 决策树的优点在于其模型的可解释性高,可以直观地展示特征与目标变量之间的关系。然而,单一决策树模型容易受到数据噪声的影响,�现过拟合现象,且对于不平衡的数据集表现不佳。为了克服这些缺点,学者们开发了基于决策树的集成学习方法,这些方法通过构建多个决策树并结合它们的预测来提高整体模型的鲁棒性和准确性。接下来,我们将介绍我们在国内实证过程中用到的三种基于决策树的集成模型:随机森林、XGBoost和LightGBM。 随机森林(RandomForest) 1)简介 随机森林是一种集成学习方法,它构建了多个决策树,并通过投票或平均的方式集成这些树的预测结果。在每个决策树的训练过程中,使用自助采样法(BootstrapSampling) 从原始数据集中有放回地采样得到N个子样本,然后再从每个子样本中随机选择m个特征,作为该决策树的一部分。这种随机性有效降低了模型对特定数据的依赖,提高了模型的鲁棒性和泛化能力。 2)优点 通过集成多个决策树,提高了模型的泛化能力。对缺失值不敏感。 能够处理非线性关系和分类数据。模型对异常值不敏感,鲁棒性较好。3)缺点 训练时间较长,尤其是在数据量大或特征多的情况下。模型的解释性较差,不如线性模型直观。 XGBoost 1)简介 在介绍XGBoost之前,有必要介绍一下GBDT。GBDT(GradientBoostingDecisionTree),全称为梯度提升决策树,是一种基于决策树的集成学习算法,它通过将多个决策树的预测结果累加来得�最终的预测结果。GBDT算法的核心在于通过迭代的方式,每一棵树都学习前一棵树预测结果的残差,从而不断优化预测效果。 XGBoost在GBDT的基础上做了一系列优化,提高了模型训练的效率和效果。GBDT 重点关注于减少模