您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[华泰期货]:量化专题报告:高频收益如何及何时可预测?(上) - 发现报告

量化专题报告:高频收益如何及何时可预测?(上)

2024-06-20高天越、李光庭、李逸资华泰期货记***
量化专题报告:高频收益如何及何时可预测?(上)

期货研究报告量化专题报告20240621 高频收益如何及何时可量化预专题测报告(丨2上024)621 研究院量化组 研究员 高天越 075523887993 gaotianyuehtfccom从业资格号:F3055799投资咨询号:Z0016156联系人 李光庭 075523887993 liguangtinghtfccom 从业资格号:F03108562 李逸资 075523887993 liyizihtfccom 从业资格号:F03105861 投资咨询业务资格: 证监许可【2011】1289号 摘要 本报告的目的是介绍并综述YacineAjtSahalia、JianqingFan等人在2022年发表的研 究成果。他们的论文《HowandWhenareHighFrequencyStockReturnsPredictable》深入探讨了高频股票收益率的可预测性。通过应用机器学习算法,文献作者发现,在 极短的时间范围内,高频股票收益率和交易持续期展现显著的、系统的、普遍的可预测性。本报告概述了其研究方法和理论意义,并总结了该论文的核心发现。在后续 的报告中,我们将基于这篇文献的基础,对国内期货高频市场进行进一步的实证分析。 核心观点 高频收益率的显著可预测性:与传统的低频分析相比,高频股票收益率在极短的时间段内展现了显著的可预测性。 成交相比于报价数据的有效性:研究发现,基于成交数据构建的预测因子,如成交不平衡和历史收益因子,对于预测高频收益率具有相对较高的帮助,而基于报价数据构造的因子则相对较弱。 数据时效的重要性:高频交易的成功在很大程度上依赖于交易系统的低延时。文献实证结果表明,即使是毫秒级的数据延迟也可能显著降低收益率的可预测性,从而影响实际交易中的盈亏。 前瞻性信息的价值:模拟分析表明,市场参与者若能获得关于未来订单流方向的前瞻性信息,即使这种信息带有噪声,也能显著提高收益预测的准确性。 目录 摘要1 核心观点1 前言3 文献摘要3 文献实证流程3 数据收集3 预测目标4 预测变量5 模型选择8 衡量预测准确性8 模型调优及测试9 文献实证结果9 收益率预测9 方向准确性预测11 交易持续期预测12 一毫秒的价值13 数据延迟的影响13 订单流方向的价值14 总结15 参考文献16 图表 图1文献所用数据集简要总结丨单位:无3 图2文献所用交易数据示例单位:美元4 图3文献所用报价数据示例单位:美元4 图4模型调优及测试时间窗口丨单位:无9 图5样本外收益率R方箱型图丨单位:无10 图6LASSO模型的因子重要性(收益率)丨单位:无11 图7样本外方向准确性箱型图丨单位:无12 图8样本外交易持续期R方箱型图丨单位:无12 图9LASSO模型的因子重要性(交易持续期)丨单位:无13 图10数据延迟对预测准确率的影响丨单位:无14 图11收益率预测样本外R方(加入订单流方向信息)丨单位:无15 前言 在金融市场的高频交易领域,收益率的可预测性一直是学术界和实务界关注的焦点。 高频收益率在不同市场环境下的可预测性对于交易策略的制定和执行具有深远的影响。在本篇报告中,我们将概述YacineAtSahalia、JianqingFan等人在其论文《HowandWhenareHighFrequencyStockReturnsPredictable》中的主要发现,这些发现为高频收益率的可预测性提供了理论基础和实证依据。 文献摘要 论文利用机器学习方法研究了超高频股票收益的在不同维度下的可预测性及持续性。作者发现,与中长期收益率相反(可预测性较小且不稳定),高频收益率在短期内显示 显著、系统性和普遍的可预测性。作者首先从交易和报价数据中构建了相关的预测 因子,并研究是什么决定了股票在不同市场环境中可预测性的变化。接下来,作者发现可预测性会随着高频数据的及时性而提高,并对可预测性的变化进行了量化评估。最后,作者模拟了提前获取部分订单流方向(不完美)对预测能力的影响,这种前瞻性能力通常来自于最快的高频交易者,能显著提高收益率的可预测性和持续性。 文献实证流程 数据收集 论文的数据来源是TAQ数据库,使用了其中纽约证券交易所2019年和2020年合计两年的交易和报价数据。TAQ包含纽约证券交易所NYSE、纳斯达克股票市场 NASDAQ和美国证券交易所AMEX上市的所有证券的日内交易和一级报价(市场上的最佳买价和卖价)。数据集简要总结如下: 图1文献所用数据集简要总结丨单位:无 数据来源:《HowandWhenareHighFrequencyStockReturnsPredictable》华泰期货研究院 下图(左)展示了英特尔公司的交易数据示例。对于给定的每个日期和股票代码,交 易数据中的一行对应一笔交易。它包含一个时间戳中,交易的价格、规模和交易方向。时间戳以纳秒为单位。作者遵循Lee和Ready19911算法,从交易序列推断订单方向。如果是买入发起的交易,则将交易方向指示为1,如果是卖发起的交易,则将交易 方向指示为1。 下图(右)展示了报价更新数据的快照示例。报价数据中的每一行对应于某个时间戳的最优双边报价价格以及挂单量。 图2文献所用交易数据示例单位:美元图3文献所用报价数据示例单位:美元 数据来源:《HowandWhenareHighFrequencyStockReturnsPredictable》华泰期货研究院 预测目标 数据来源:《HowandWhenareHighFrequencyStockReturns Predictable》华泰期货研究院 论文研究的因变量是未来一定区间内的收益率和方向(涨或是跌)。此处,作者使用了三个时钟(TimeClock)来定义区间,分别是日历时钟、成交时钟以及成交额时钟。日历时钟就是最常见的时间维度(未来n秒的区间收益率及方向),成交时钟则将交易笔 数作为衡量区间的尺度(未来n笔交易的区间收益率及方向),而成交额时钟则是将成交金额作为衡量区间的尺度(未来n美元交易的区间收益率及方向)。预测区间构造的公式及符号表达如下: 其中,T为当前时点,为区间长度,M为所选时钟。 在进一步介绍收益率与方向的计算方法之前,我们需要先介绍一些数学符号的含义。 这些符号在收益率的计算公式以及后面因子的构造公式中会频繁现,我们在此处列 1LeeCMReadyMJ1991InferringtradedirectionfromintradaydataTheJournalofFinance46733746 以便读者更好理解。 令代表所有时间戳中发生成交的时间节点,代表所有时间戳中与报价相关的时 间节点,数据中全部的时间戳则为。时间t的最优买价为,相应挂单量为;最优卖价为,相应挂单量为;中间价2。最后,时间t 的成交价格为其中。 作者将预测区间收益率定义为未来一段时间内的平均成交价格与当前中间价的比值减一,公式如下: 与传统的单笔交易或固定时间间隔的收益率计算方式相比,这样的计算方式使得收益率数值更加稳定,噪声更小,受到异常值的影响较小。 交易方向的计算公式为: 其中,为股票历史上的平均区间收益率。由于时间区间较短短,该值会非常趋近于0。 预测变量 回溯区间 论文中后续构造的所有自变量都是预测时点T之前回溯区间内报价及成交数据的线性 (或非线性)组合,与因变量一样,需要定义区间的长度。回溯区间的表达方式与预测区间基本一致,如下所示: 作者使用了多个不相交的区间作为回溯区间。对于日历时钟,作者使用12 00101020204128256共9个区间作为回溯区间(单位为秒,1代表区间结束时点和当前时点的距离,2代表区间开始时点和当前时点的距离);对于成交时钟,作者使用12011224128256作为回溯区间(单位为成交笔数);对于成交额时钟,作者使用12 01001002002004001280025600作为回溯区间(单位为股数)。 没有充分的理由说明每个预测变量所含信息量最多的回溯区间长度应该相同。另外,从原则上讲,在一个时钟下计算得的因子也应当能够用于预测不同时钟下的目标。由于存在多种可能的组合,这类问题很适合采用机器学习算法来解决。 因子构造 论文构造了13个预测因子,每个因子都可以在9个回溯区间和3个时钟上计算。这 13个预测因子大致可以分为以下3类。 第一类:成交量和持续时间。第一组预测因子与股票的交易强度有关。例如,人们可能预期大额或频繁的交易现象可能会在短期内持续存在,因此此类因子可能具备预测能力。 1)广度因子(Breadth)是回溯区间内的成交笔数: 2)即时性因子(Immediacy)是回溯区间内每笔成交的平均间隔时间: 3)总成交量因子(VolumeAll)是回溯区间内的总成交量: 4)平均成交量因子(VolumeAvg)是回溯区间内的每笔成交的平均成交量: 5)最大成交量因子(VolumeMax)是回溯区间内的单笔成交的最大成交量: 第二类:收益和不平衡性。第二组预测因素与股票近期的交易不对称有关。例如,如 果大多数交易都是触及卖方报价的买入交易,或者最优报价中买单量显著高于卖单量,那么我们可能会看到价格上涨的较大可能性。因此,预测未来回报的一个因素将是当 前限价订单簿(LOB)的特征,包括任何不平衡性。众所周知,这种不平衡预示着未来 的价格变动(参见Cont等人(2014年)2以及Kercheval和Zhang(2015年)3)。 1)价格振幅因子(Lambda)衡量了回溯区间内单位成交量下价格的波动变化: 2)报价不平衡因子(LobImbalance)衡量了回溯区间内最优报价处挂单量的不平衡性: 3)成交不平衡因子(TxnImbalance)衡量了回溯区间内所有成交中主买量和主卖量之前的不平衡性: 4)历史收益因子(PastReturn)是回溯区间内的收益率,计算方式与与之前提到的预测区间收益率基本一致: 第三类:速度和费用。第三组预测因素主要考虑了股票交易的速度和成本。 1)换手率因子(Turnover)是回溯区间内成交量与总流通股数之间的比例: 2)自相关性因子(AutoCov)是回溯区间内成交收益率的平均自协方差: 3)报价价差因子(QuotedSpread)是回溯区间内标准化后的平均最优报价价差: 2ContRKukanovAStoikovS2014ThepriceimpactoforderbookeventsJournalofFinancialEconometrics124788 3KerchevalANZhangY2015ModellinghighfrequencylimitorderbookdynamicswithsupportvectormachinesQuantitativeFinance1513151329 4)有效价差因子(QuotedSpread)衡量了回溯区间内用成交价计算的美元加权 (dollarweighted)价差: 模型选择 文献主要使用了两种回归方法进行预测,第一种是正则化逻辑回归(LASSOLeastabsoluteshrinkageandselectionoperator)作为代表性的参数方法,以及随机森林 (RF,RandomForest)作为代表性的非参数方法。除了主要使用的这两种方法之外,作者也对其他的方法进行了评估,包含最小二乘法(OLS)、岭回归(Ridge)、FarmPredict线性回归及梯度提升树(GBT)等方法。 衡量预测准确性 于鲁棒性的考虑,文献作者使用了两个指标来衡量预测的准确性,分别是可决系数R方以及方向准确性(两者都是样本外)。R方是回归模型最常见的检验指标之一,以标准化的形式衡量目标预测的准确性,公式如下: R方取值范围为1,R方大于0说明模型能产生有意义的预测结果,优于以样本外均值做预测的预测效果。不难发现,R方这个指标比较容易受到异常值的影响,因为其计算中的组成部分包含了平方误差,然而不幸的是,股票价格的