期货研究报告|量化专题报告2024-06-21 高频收益如何及何时可量化预专题测报?告(丨2上024/)6/21 研究院量化组 研究员 高天越 0755-23887993 gaotianyue@htfc.com从业资格号:F3055799投资咨询号:Z0016156联系人 李光庭 0755-23887993 liguangting@htfc.com 从业资格号:F03108562 李逸资 0755-23887993 liyizi@htfc.com 从业资格号:F03105861 投资咨询业务资格: 证监许可【2011】1289号 摘要 本报告的目的是介绍并综述YacineAjt-Sahalia、JianqingFan等人在2022年发表的研 究成果。他们的论文《HowandWhenareHigh-FrequencyStockReturnsPredictable?》深入探讨了高频股票收益率的可预测性。通过应用机器学习算法,文献作者发现,在 极短的时间范围内,高频股票收益率和交易持续期展现�显著的、系统的、普遍的可预测性。本报告概述了其研究方法和理论意义,并总结了该论文的核心发现。在后续 的报告中,我们将基于这篇文献的基础,对国内期货高频市场进行进一步的实证分析。 核心观点 高频收益率的显著可预测性:与传统的低频分析相比,高频股票收益率在极短的时间段内展现�了显著的可预测性。 成交相比于报价数据的有效性:研究发现,基于成交数据构建的预测因子,如成交不平衡和历史收益因子,对于预测高频收益率具有相对较高的帮助,而基于报价数据构造的因子则相对较弱。 数据时效的重要性:高频交易的成功在很大程度上依赖于交易系统的低延时。文献实证结果表明,即使是毫秒级的数据延迟也可能显著降低收益率的可预测性,从而影响实际交易中的盈亏。 前瞻性信息的价值:模拟分析表明,市场参与者若能获得关于未来订单流方向的前瞻性信息,即使这种信息带有噪声,也能显著提高收益预测的准确性。 目录 摘要1 核心观点1 前言3 文献摘要3 文献实证流程3 数据收集3 预测目标4 预测变量5 模型选择8 衡量预测准确性8 模型调优及测试9 文献实证结果9 收益率预测9 方向准确性预测11 交易持续期预测12 一毫秒的价值13 数据延迟的影响13 订单流方向的价值14 总结15 参考文献16 图表 图1:文献所用数据集简要总结丨单位:无3 图2:文献所用交易数据示例|单位:美元4 图3:文献所用报价数据示例|单位:美元4 图4:模型调优及测试时间窗口丨单位:无9 图5:样本外收益率R方箱型图丨单位:无10 图6:LASSO模型的因子重要性(收益率)丨单位:无11 图7:样本外方向准确性箱型图丨单位:无12 图8:样本外交易持续期R方箱型图丨单位:无12 图9:LASSO模型的因子重要性(交易持续期)丨单位:无13 图10:数据延迟对预测准确率的影响丨单位:无14 图11:收益率预测样本外R方(加入订单流方向信息)丨单位:无15 前言 在金融市场的高频交易领域,收益率的可预测性一直是学术界和实务界关注的焦点。 高频收益率在不同市场环境下的可预测性对于交易策略的制定和执行具有深远的影响。在本篇报告中,我们将概述YacineAït-Sahalia、JianqingFan等人在其论文《HowandWhenareHigh-FrequencyStockReturnsPredictable?》中的主要发现,这些发现为高频收益率的可预测性提供了理论基础和实证依据。 文献摘要 论文利用机器学习方法研究了超高频股票收益的在不同维度下的可预测性及持续性。作者发现,与中长期收益率相反(可预测性较小且不稳定),高频收益率在短期内显示 �显著、系统性和普遍的可预测性。作者首先从交易和报价数据中构建了相关的预测 因子,并研究是什么决定了股票在不同市场环境中可预测性的变化。接下来,作者发现可预测性会随着高频数据的及时性而提高,并对可预测性的变化进行了量化评估。最后,作者模拟了提前获取部分订单流方向(不完美)对预测能力的影响,这种前瞻性能力通常来自于最快的高频交易者,能显著提高收益率的可预测性和持续性。 文献实证流程 ■数据收集 论文的数据来源是TAQ数据库,使用了其中纽约证券交易所2019年和2020年合计两年的交易和报价数据。TAQ包含纽约证券交易所(NYSE)、纳斯达克股票市场 (NASDAQ)和美国证券交易所(AMEX)上市的所有证券的日内交易和一级报价(市场上的最佳买价和卖价)。数据集简要总结如下: 图1:文献所用数据集简要总结丨单位:无 数据来源:《HowandWhenareHigh-FrequencyStockReturnsPredictable?》华泰期货研究院 下图(左)展示了英特尔公司的交易数据示例。对于给定的每个日期和股票代码,交 易数据中的一行对应一笔交易。它包含一个时间戳中,交易的价格、规模和交易方向。时间戳以纳秒为单位。作者遵循Lee和Ready(1991)1算法,从交易序列推断订单方向。如果是买入发起的交易,则将交易方向指示为+1,如果是卖�发起的交易,则将交易 方向指示为-1。 下图(右)展示了报价更新数据的快照示例。报价数据中的每一行对应于某个时间戳的最优双边报价价格以及挂单量。 图2:文献所用交易数据示例|单位:美元图3:文献所用报价数据示例|单位:美元 数据来源:《HowandWhenareHigh-FrequencyStockReturnsPredictable?》华泰期货研究院 ■预测目标 数据来源:《HowandWhenareHigh-FrequencyStockReturns Predictable?》华泰期货研究院 论文研究的因变量是未来一定区间内的收益率和方向(涨或是跌)。此处,作者使用了三个时钟(TimeClock)来定义区间,分别是日历时钟、成交时钟以及成交额时钟。日历时钟就是最常见的时间维度(未来n秒的区间收益率及方向),成交时钟则将交易笔 数作为衡量区间的尺度(未来n笔交易的区间收益率及方向),而成交额时钟则是将成交金额作为衡量区间的尺度(未来n美元交易的区间收益率及方向)。预测区间构造的公式及符号表达如下: 其中,T为当前时点,Δ为区间长度,M为所选时钟。 在进一步介绍收益率与方向的计算方法之前,我们需要先介绍一些数学符号的含义。 这些符号在收益率的计算公式以及后面因子的构造公式中会频繁�现,我们在此处列 1Lee,C.M.,Ready,M.J.,1991.Inferringtradedirectionfromintradaydata.TheJournalofFinance46,733746. �以便读者更好理解。 令𝐷𝑡𝑥�代表所有时间戳中发生成交的时间节点,𝐷𝑞�代表所有时间戳中与报价相关的时 � 间节点,数据中全部的时间戳则为�=𝐷𝑡𝑥��𝐷𝑞�。时间t的最优买价为𝑃𝑏,相应挂单量为𝑆𝑏;最优卖价为𝑃𝑎,相应挂单量为𝑆𝑎;中间价�=(𝑃�+𝑃𝑎)/2。最后,时间t ������ � 的成交价格为𝑃𝑡𝑥𝑛,其中�∈𝐷𝑡𝑥�。 作者将预测区间收益率定义为未来一段时间内的平均成交价格与当前中间价的比值减一,公式如下: 与传统的单笔交易或固定时间间隔的收益率计算方式相比,这样的计算方式使得收益率数值更加稳定,噪声更小,受到异常值的影响较小。 交易方向的计算公式为: 其中,𝑅̅(𝛥,𝑀)为股票历史上的平均区间收益率。由于时间区间较短短,该值会非常趋近于0。 ■预测变量 回溯区间 论文中后续构造的所有自变量都是预测时点T之前回溯区间内报价及成交数据的线性 (或非线性)组合,与因变量一样,需要定义区间的长度。回溯区间的表达方式与预测区间基本一致,如下所示: 作者使用了多个不相交的区间作为回溯区间。对于日历时钟,作者使用(𝛥1,𝛥2)∈ [(0,0.1),(0.1,0.2),(0.2,0.4),……,(12.8,25.6)]共9个区间作为回溯区间(单位为秒,𝛥1代表区间结束时点和当前时点的距离,𝛥2代表区间开始时点和当前时点的距离);对于成交时钟,作者使用(𝛥1,𝛥2)∈[(0,1),(1,2),(2,4),……,(128,256)]作为回溯区间(单位为成交笔数);对于成交额时钟,作者使用(𝛥1,𝛥2)∈ [(0,100),(100,200),(200,400),……,(12800,25600)]作为回溯区间(单位为股数)。 没有充分的理由说明每个预测变量所含信息量最多的回溯区间长度应该相同。另外,从原则上讲,在一个时钟下计算得�的因子也应当能够用于预测不同时钟下的目标。由于存在多种可能的组合,这类问题很适合采用机器学习算法来解决。 因子构造 论文构造了13个预测因子,每个因子都可以在9个回溯区间和3个时钟上计算。这 13个预测因子大致可以分为以下3类。 第一类:成交量和持续时间。第一组预测因子与股票的交易强度有关。例如,人们可能预期大额或频繁的交易现象可能会在短期内持续存在,因此此类因子可能具备预测能力。 1)广度因子(Breadth)是回溯区间内的成交笔数: 2)即时性因子(Immediacy)是回溯区间内每笔成交的平均间隔时间: 3)总成交量因子(VolumeAll)是回溯区间内的总成交量: 4)平均成交量因子(VolumeAvg)是回溯区间内的每笔成交的平均成交量: 5)最大成交量因子(VolumeMax)是回溯区间内的单笔成交的最大成交量: 第二类:收益和不平衡性。第二组预测因素与股票近期的交易不对称有关。例如,如 果大多数交易都是触及卖方报价的买入交易,或者最优报价中买单量显著高于卖单量,那么我们可能会看到价格上涨的较大可能性。因此,预测未来回报的一个因素将是当 前限价订单簿(LOB)的特征,包括任何不平衡性。众所周知,这种不平衡预示着未来 的价格变动(参见Cont等人(2014年)2以及Kercheval和Zhang(2015年)3)。 1)价格振幅因子(Lambda)衡量了回溯区间内单位成交量下价格的波动变化: 2)报价不平衡因子(LobImbalance)衡量了回溯区间内最优报价处挂单量的不平衡性: 3)成交不平衡因子(TxnImbalance)衡量了回溯区间内所有成交中主买量和主卖量之前的不平衡性: 4)历史收益因子(PastReturn)是回溯区间内的收益率,计算方式与与之前提到的预测区间收益率基本一致: 第三类:速度和费用。第三组预测因素主要考虑了股票交易的速度和成本。 1)换手率因子(Turnover)是回溯区间内成交量与总流通股数之间的比例: 2)自相关性因子(AutoCov)是回溯区间内成交收益率的平均自协方差: 3)报价价差因子(QuotedSpread)是回溯区间内标准化后的平均最优报价价差: 2Cont,R.,Kukanov,A.,Stoikov,S.,2014.Thepriceimpactoforderbookevents.JournalofFinancialEconometrics12,47[88. 3Kercheval,A.N.,Zhang,Y.,2015.Modellinghigh-frequencylimitorderbookdynamicswithsupportvectormachines.QuantitativeFinance15,1315[1329. 4)有效价差因子(QuotedSpread)衡量了回溯区间内用成交价计算的美元加权 (dollar-weighted)价差: ■模型选择 文献主要使用了两种回归方法进行预测,第一种是正则化逻辑回归(LASSO,Leastabsoluteshrinkageandselectionoperator)作为代表性的参数方法,以及随机森林 (RF,RandomForest)作为代表