您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[开源证券]:市场微观结构研究系列(25):订单流系列:挂单方向长期记忆性的讨论与应用 - 发现报告
当前位置:首页/其他报告/报告详情/

市场微观结构研究系列(25):订单流系列:挂单方向长期记忆性的讨论与应用

2024-06-09魏建榕、苏良开源证券M***
市场微观结构研究系列(25):订单流系列:挂单方向长期记忆性的讨论与应用

金融工程专题 2024年06月09日 订单流系列:挂单方向长期记忆性的讨论与应用 金融工程研究团队 ——市场微观结构研究系列(25) 魏建榕(首席分析师) 魏建榕(分析师)苏良(分析师) 证书编号:S0790519120001 张翔(分析师) weijianrong@kysec.cn 证书编号:S0790519120001 suliang@kysec.cn 证书编号:S0790523060004 证书编号:S0790520110001 傅开波(分析师) 证书编号:S0790520090003 高鹏(分析师) 证书编号:S0790520090002 苏俊豪(分析师) 证书编号:S0790522020001 胡亮勇(分析师) 证书编号:S0790522030001 王志豪(分析师) 证书编号:S0790522070003 盛少成(分析师) 证书编号:S0790523060003 苏良(分析师) 证书编号:S0790523060004 何申昊(研究员) 证书编号:S0790122080094 陈威(研究员) 证书编号:S0790123070027 蒋韬(研究员) 证书编号:S0790123070037 相关研究报告 《订单流系列:撤单行为规律初探—市场微观结构研究系列(22)》 -2024.01.24 《订单流系列:关于市场微观结构变迁的故事—市场微观结构研究系列 (21)》-2023.09.19 《大小单重定标与资金流因子改进—市场微观结构研究系列(16)》 -2022.09.04 挂单方向长期记忆性的实证规律 (1)如何识别长期记忆性? 编码:我们将每笔买入委托的标识记作“1”,而卖出委托的标识记作“-1”,从而得到了一组连续的数值序列;定量化:通过计算序列自相关系数作为指标; (2)挂单方向具备长期记忆性的特征在A股普遍存在 宏观视角:无论大票、小票均存在挂单方向的长期记忆性,但我们发现在2022 年以前并不显著,并且在高低价格股票中呈现前后不一的选择偏好。 微观视角:连续竞价阶段的长期记忆性强度在2022年以来明显提高,并且要优于集合竞价;此外,越靠近盘口、委托数量偏小的委托,在时序中的相似度越高。 长期记忆的驱动因素 订单流的长期记忆性并非是由价格趋势所致,而应归因于委托的连续性。关于这一特性的成因,目前主要有两种看法:羊群效应、算法拆单。 我们从机构持仓、股东户数、因子跟踪、订单微观视角上给出我们的理解:订单 流的连续性并非是由散户在时间上的拥挤行为,而是某种或者多种算法共同作用的条件下所实现的表象特征。 Alpha策略开发 基于对长期记忆性的规律分析,笔者基于三种计算方法开发因子,分别是: (1)自相关系数回归法:长期记忆强度_LMS、高维记忆_MEMO 方法核心为基于挂单方向的数值序列,计算其1至100阶的自相关系数,并通过对滞后阶的对数值进行回归,得到OLS模型估计参数。 (2)基于“傅里叶变换”的频谱分析:分拆痕迹_OST 傅里叶变换、小波等方法,将原本时域(常见时序特征)信息转变为频域(由数据周期性决定的)信息,方便我们计算得到更深层的因子信号。 (3)同类订单连续重复次数统计 长期记忆性的因子逻辑表述为:从订单流角度观察时序的相似性,若指标显著偏高,说明信息优势投资者倾向交易股票,从选股质量上提供正向的分层效果。 基于机器学习的特征合成:树模型、网络模型 (1)树模型(XGBoost、LightGBM) XGBoost样本内效果比较理想,多头超额收益显著。但是,在样本外,仅有8.6%的超额收益,胜率也从98%降至70%,模型泛化能力较差。LightGBM预测因子在分组单调性上要优于XGBoost,样本外预测能力的衰减程度也相对较轻。 (2)网络模型(LSTM) 我们在尝试LSTM的损失函数中添加负IC绝对值作为惩罚项后,模型得到的预测效果有明显的提升。特征合成过程需要考虑因子间的共线性,对于模型复杂度不宜过高,同时加以适当的惩罚可以避免陷入局部最优。 风险提示:模型基于历史数据测试,未来市场可能发生变化。 金融工程研究 金融工程专题 开源证券 证券研究报 告 目录 1、挂单方向长期记忆性的实证研究4 1.1、长期记忆性的定量刻画4 1.2、挂单方向具备长期记忆性的特征在A股普遍存在5 1.2.1、自相关系数在较长时间内显著不为零5 1.2.2、宏观视角:长期记忆性在2022年以前特征并不显著7 1.2.3、微观视角:小额、价优的委托是导致长期记忆性的具象8 1.3、长期记忆性驱动因素分析9 2、Alpha策略:特征识别与分域讨论12 2.1、自相关系数回归法12 2.2、频谱分析:信号处理方法的迁移应用17 2.3、订单小岛:从交易行为中区分选股逻辑的方向19 2.4、模型赋能:提供非线性的因子收益增强20 2.4.1、树模型21 2.4.2、网络模型22 3、风险提示22 图表目录 图1:订单流中的每笔订单的挂单方向具有连续性4 图2:挂单方向的ACF和PACF显著大于零5 图3:滞后多阶的两笔委托的方向同样存在联系5 图4:自相关系数随滞后阶数对数值的变化基本符合线性特征6 图5:在市值分组下截距项随时间变化7 图6:在换手率分组下截距项随时间变化7 图7:特殊的股票样本并非是长期记忆性的主要贡献力量7 图8:高、低股价的强度分布重心前后不一致8 图9:高价股“偏好”的转变大致发生在2021年底8 图10:连续竞价阶段长期记忆性有明显增强8 图11:自相关系数回归模型的P值分布:开盘最强8 图12:价优委托的长期记忆性强度更高9 图13:小额委托的长期记忆性强度更高9 图14:相互独立的订单流不具备长期记忆性9 图15:长期记忆性表现为相似订单的时序联系9 图16:随着低水平的机构持仓比例上升,长期记忆性更易被观测10 图17:资金流Alpha弱化与长期记忆强度跃迁基本重叠11 图18:单笔挂单金额2021年以来快速降低11 图19:2024年相比2018年,连续订单的金额衰减的现象更明显11 图20:交易员通过算法将原始订单拆分成若干子订单12 图21:交易算法经过多年发展已渐成熟12 图22:长期记忆强度LMS的十分组不单调13 图23:LMS与常规风格特征相关性偏低13 图24:因子分年度收益统计:2018年相对一般14 图25:LMS因子的ICIR偏低14 图26:偏度、峰度因子表现要比LMS要好15 图27:价量筛选逻辑有一定改进效果16 图28:价量补充逻辑基本无效16 图29:高维记忆MEMO因子的十分组测试结果较优16 图30:MEMO的收益稳定性较高17 图31:MEMO在流动性上暴露为0.2117 图32:强波占比的累计变化曲线表现为“下凹”18 图33:自相关系数与强波占比的散点图18 图34:分拆痕迹_OST因子在2022年以来表现有所增强18 图35:OST因子2024年初遭遇较大回撤19 图36:OST因子在常规风格上几乎没有暴露19 图37:订单小岛的编码过程19 图38:订单小岛的样本数量有明显差异19 图39:订单流长期记忆性的逻辑较难区分买卖方向20 图40:XGBoost样本内R2为0.01321 图41:XGBoost样本外R2为0.01121 图42:LightGBM样本内R2为0.01521 图43:LightGBM样本外R2为0.01121 图44:LSTM_MSE样本外预测效果较为一般22 图45:LSTM_IC样本外有明显提升22 表1:A股委托的挂单方向普遍存在长记忆性6 表2:长期记忆强度_LMS因子在中证1000指数成分股范围内表现最优13 表3:偏度和峰度指标对比长期记忆强_LMS因子的改进效果更好14 表4:不同子样本的测试效果展示:时段差异不大,价优优于价次,小额优于大额15 表5:引入价量复合的因子测试效果不理想16 表6:MEMO因子的测试结果17 表7:OST因子在不同选股域内表现均不错19 表8:基于订单小岛开发因子的选股效果20 基于微观视角观察投资者的行为规律,并通过指标进行宏观监测,是研究市场微观结构的重要课题。对此,我们做了多方位的尝试与探索:单笔成交金额能够反映了市场中大资金交易者的参与度,订单执行速度变化则在某种程度上描述了高频交易行为等。而本篇将从时间序列分析的角度切入,继续讨论市场微观结构。 我们首先将聚焦于一个有意思的现象:委托的挂单方向具有长期记忆性,讨论该现象在A股市场的规律以及背后的形成机制;然后,笔者引入自相关系数和频谱分析等方法,构造多个选股因子来捕捉规律背后的Alpha信息;最后,我们从特征工程视角,初步探讨“高频+机器学习”的可实现路径,并给出针对性的解决方案。 1、挂单方向长期记忆性的实证研究 1.1、长期记忆性的定量刻画 Lillo等学者(2004)曾指出,由连续委托的挂单方向组成的序列基本符合长期记忆过程的特征,即序列的自相关强度随着距离变远而减小的速度较慢,即便在间隔很长的样本之间仍保留一定的关联性。后续学者则在不同市场内检验此结论的合理性,例如,DoojinRyu(2012)在韩国期货市场中确认该规律显著存在,YukiSato等(2023)则在日本股市中找寻了能够定量刻画的指标。 我们沿用前辈们的做法,将每笔买入委托的标识记作“1”,而卖出委托的标识记作“-1”,从而得到了一组连续的数值序列。图1展示了某只股票订单流信息,以及挂单方向经数值处理后的结果。从图中不难发现,时序相邻的两笔委托之间的相似度通常比较高,包括但不限于委托方向、价格以及数量等。 图1:订单流中的每笔订单的挂单方向具有连续性 资料来源:Wind、开源证券研究所 针对上述现象进行定量刻画,笔者采取通用做法,利用计算自相关系数的方法描述变量的长期记忆性。为了方便讨论,我们先处理所需的数学符号,若股票单日订单数量为𝑁,每笔订单挂单方向组成的数值序列为[𝑋𝑛],其中,�=1,2,⋯,�。对 于上述变量在间隔�期后的自相关程度计算如下。自协方差: �=𝐶𝑜𝑣(�,� )=1 ∑�(� −𝑥̅)(� −𝑥̅) ��𝑛−� 𝑁−� 𝑛=𝑘+1� 𝑛−� 自相关系数: 𝜌�=𝛾𝑘⁄𝛾0 其中,𝑥̅表示数值序列[𝑋𝑛]的均值。 1.2、挂单方向具备长期记忆性的特征在A股普遍存在 1.2.1、自相关系数在较长时间内显著不为零 在时间序列分析中,自相关函数(ACF)和偏自相关函数(PACF)可以用来衡量时间序列的趋势性和周期性等特征。利用深市的逐笔委托数据,我们可以测算股票挂单方向是否存在长期记忆,如图2所示。挂单方向的数值序列[𝑋𝑛]的ACF和PACF均显著不为零,两笔订单买卖方向即便间隔较长期仍具有联系,这也说明了A股的订单流中同样存在挂单方向的长期记忆性。 图2:挂单方向的ACF和PACF显著大于零图3:滞后多阶的两笔委托的方向同样存在联系 数据来源:Wind、开源证券研究所,日期截取20240315数据来源:Wind、开源证券研究所,日期截取20240315 后续订单的挂单方向和当前方向大概率是相同的。这种在交易行为上表现出的令人疑惑的一致性,在数学上可以大致地被描述为一种近似线性的规律。 𝜌��𝑙𝑛(𝑘) 为了更加直观说明,笔者选取京东方A和五粮液两只股票作为示例,分别绘制不同滞后阶�与其对应自相关系数的散点分布。自相关系数会随�呈现不同速率的指数衰减,而将�取对数则可以一定程度避免讨论幂律函数的具体形态,并且得到一组符合线性相关特性的样本。经过处理后的结果如图4所示。 图4:自相关系数随滞后阶数对数值的变化基本符合线性特征 数据来源:Wind、开源证券研究所,日期截取20240315 图4中呈现线性分布的散点反映了个股间两点重要的差异,一是相关系数的绝对水平(截距项),二是自相关性的衰减速率(斜率)。京东方A的订单间联系要强于五粮液,因为蓝色线段与Y轴的相交值更大。