您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国信证券]:金融工程专题研究:高频订单成交数据蕴含的Alpha信息 - 发现报告
当前位置:首页/其他报告/报告详情/

金融工程专题研究:高频订单成交数据蕴含的Alpha信息

2024-01-08张欣慰、张宇国信证券�***
金融工程专题研究:高频订单成交数据蕴含的Alpha信息

证券研究报告|2024年01月08日 金融工程专题研究 高频订单成交数据蕴含的Alpha信息 核心观点金融工程专题报告 深入高频:从日频行情数据到逐笔成交数据。 逐笔成交数据介绍:逐笔成交数据主要记录了每笔成交的数量、价格、时间信息以及本次成交涉及的买卖双方的订单数量、价格和订单号信息。 考察高频订单的几个维度:对高频订单的考察通常可从订单大小、成交时长、成交时间、出价高低等维度入手。 基于订单大小的大单交易占比因子 传统大单交易占比因子:采用分位点的方式对大单进行划分,构建“传统大单交易占比”因子。该因子展现出一定的选股能力,但是总体来讲绩效较为平庸,且稳定性较差。 传统大单交易占比因子拆解:根据每笔成交买卖订单是否为大单,对传统大单交易占比因子进行拆解,发现子因子方向不同,导致因子效果变差。 改进大单交易占比因子:我们对构成大单交易占比因子的子因子方向进行调整构建“改进后大单交易占比”。该因子RankIC均值达到7.6%,年化RankICIR为3.73,月胜率88.1%,月度自相关系数0.81。 基于订单成交时长的漫长订单交易占比因子 漫长订单交易占比因子:采用分位点的方式对订单成交时长进行划分,构建“漫长订单交易占比”因子,其RankIC均值为7.1%,年化RankICIR为3.88,月胜率84.5%,月度自相关系数0.82。 衡量订单特征的其他维度 我们还可以从“早尾盘属性”及“高低价属性”出发,对订单包含的信息进行多特征维度的衡量。 大单及漫长订单复合因子 大单及漫长订单复合因子:将“改进大单交易占比”因子和“漫长订单交易占比”进行等权合成,构建“大单及漫长订单”复合因子。复合因子的RankIC均值为8.4%,年化RankICIR为4.39,月胜率88.1%。周频调仓复合因子的周度RankIC均值为5.1%,年化RankICIR为5.42,周胜率78.4%。 复合因子特征:复合因子更倾向于低估值、大市值、低波动、低换手股票。在剥离掉传统选股因子后,纯净因子仍展现出稳健的选股能力。 基于订单特征的成交量占比因子的统一框架 基于订单特征的成交量占比因子的统一框架:基于委买单和委卖单的“大单属性”和“漫长属性”,对不同类别的成交记录进行分类,分别检验不同类型成交记录交易占比因子的选股能力。 基于订单特征的精选复合因子:精选复合因子的RankIC均值为8.5%,年化RankICIR为5.06,月胜率90.5%。周频调仓精选复合因子的周度RankIC均值为5.2%,年化RankICIR为6.57,周胜率82.6%。 风险提示:市场环境变动风险,本报告基于客观数据,不构成投资建议。 金融工程·数量化投资 证券分析师:张欣慰证券分析师:张宇 021-60933159021-60875169 zhangxinwei1@guosen.com.cnzhangyu15@guosen.com.cn S0980520060001S0980520080004 相关研究报告 《超预期投资全攻略》——2020-09-30 《基于优秀基金持仓的业绩增强策略》——2020-11-15 《基于分析师认可度的成长股投资策略》——2021-05-12 《基于分析师推荐视角的港股投资策略》——2021-05-17 《券商金股全解析——数据、建模与实践》——2022-02-18 《战胜机构投资者——再论主动股基业绩增强策略》 ——2022-12-07 《超额图谱视角下的成长股投资策略》——2023-06-07 《北向因子能否长期有效?——来自亚太地区的实证》 ——2021-05-17 《基于风险预算的中证500指数增强策略》——2021-10-20 《动量类因子全解析》——2021-12-13 《寻找业绩与估值的错配:非理性估值溢价因子》2021-12-15 《反转因子全解析》——2022-06-14 《价量类风险因子挖掘初探》——2022-06-20 《隐式框架下的特质类因子改进》——2022-08-17 《风险溢价视角下的动量反转统一框架》——2022-12-07 《寻找关键时刻的领头羊——时点动量全解析》——2023-05-17 请务必阅读正文之后的免责声明及其项下所有内容 内容目录 深入高频:从日频行情数据到逐笔成交数据5 深入高频:从日频行情数据到逐笔成交数据5 逐笔成交数据介绍7 考察高频订单的几个维度9 基于订单大小的大单交易占比因子10 大单定义及识别10 传统大单交易占比因子构建11 传统大单交易占比因子拆解13 改进大单交易占比因子表现15 基于订单成交时长的漫长订单交易占比因子16 订单成交大小与成交时长16 漫长订单定义及识别18 漫长订单交易占比因子构建19 漫长订单交易占比因子拆解21 衡量订单特征的其他维度22 基于早尾盘属性对订单进行划分22 基于高低价属性对订单进行划分23 大单及漫长订单复合因子24 改进大单交易占比因子VS漫长订单交易占比因子24 大单及漫长订单复合因子26 复合因子在不同样本空间中的表现27 周频调仓复合因子表现29 复合因子与常见选股因子相关性30 基于订单特征的成交量占比因子的统一框架31 基于订单特征的精选复合因子32 周频调仓精选复合因子表现35 参数敏感性检验36 改进大单交易占比因子参数敏感性分析36 漫长订单交易占比因子参数敏感性分析37 总结38 风险提示39 图表目录 图1:完全相同的日度K线对应着完全不同的日内走势5 图2:数据的形成过程与因子挖掘的演进过程6 图3:从订单数据到行情数据的演变6 图4:股票每日委托订单及成交记录数量分年度统计(单位:笔)8 图5:高频订单成交数据考察维度9 图6:不同市值分档下股票订单成交金额分位数情况(单位:元)10 图7:大单划分示意图11 图8:大单买入交易占比因子及大单卖出交易占比因子相关系数12 图9:传统大单交易占比因子RankIC走势13 图10:传统大单交易占比因子分组月均超额收益13 图11:传统大单交易占比因子拆解13 图12:基于委买单及委卖单的“大单属性”构造的不同类型成交记录的成交笔数及成交量占比14 图13:改进大单交易占比因子RankIC走势15 图14:改进大单交易占比因子分组月均超额收益15 图15:改进大单交易占比因子多头相对基准净值走势16 图16:改进大单交易占比因子多空分年度超额收益16 图17:订单大小与订单成交时长关系示意图17 图18:成交耗时最长的10%订单在不同成交量分位区间的订单数量占比17 图19:漫长订单划分示意图18 图20:大单买入交易占比及大单卖出交易占比因子相关系数19 图21:漫长订单交易占比因子RankIC走势20 图22:漫长订单交易占比因子分组月均超额收益20 图23:漫长订单交易占比因子多头相对基准净值走势20 图24:漫长订单交易占比因子多空分年度超额收益20 图25:基于委买单及委卖单的“时长属性”构造的不同类型成交记录的成交笔数及成交量占比21 图26:早尾盘复合交易占比因子RankIC走势23 图27:早尾盘复合交易占比因子分组月均超额收益23 图28:改进大单交易占比因子与漫长订单交易占比因子相关系数24 图29:大单交易占比残差因子RankIC走势25 图30:大单交易占比残差因子分组月均超额25 图31:漫长订单交易占比残差因子RankIC走势25 图32:漫长订单交易占比残差因子分组月均超额25 图33:复合因子RankIC走势26 图34:复合因子分组月均超额收益26 图35:复合因子多头相对基准净值走势27 图36:复合因子多空分年度超额收益27 图37:不同风格型股票池样本数量变化28 图38:复合因子在不同样本空间中的多空净值走势29 图39:周频调仓复合因子RankIC走势29 图40:周频调仓复合因子分组周度平均超额收益29 图41:周频调仓复合因子多头相对基准净值走势30 图42:周频调仓复合因子多空分年度超额收益30 图43:漫长订单与选股因子相关系数30 图44:复合纯净因子RankIC走势31 图45:复合纯净因子分组月均超额收益31 图46:精选复合因子RankIC走势34 图47:精选复合因子分组月均超额收益34 图48:精选复合因子多头相对基准净值走势35 图49:精选复合因子多空分年度超额收益35 图50:周频调仓精选复合因子RankIC走势35 图51:周频调仓精选复合因子分组周度平均超额收益35 图52:周频调仓精选复合因子多头相对基准净值走势36 图53:周频调仓精选复合因子多空分年度超额收益36 图54:不同阈值下改进大单交易占比因子累计RankIC走势37 图55:不同阈值下改进大单交易占比因子月均超额37 图56:1秒及以上订单在全部订单数量占比分布情况37 图57:不同阈值下漫长订单交易占比因子累计RankIC走势38 图58:不同阈值下漫长订单交易占比因子月均超额38 表1:逐笔成交数据的数据条目及说明7 表2:逐笔成交数据示例7 表3:基于委买单及委卖单的“大单属性”构造的子因子回测结果15 表4:传统大单交易占比因子和改进大单交易占比因子绩效对比16 表5:改进大单交易占比因子和漫长订单交易占比因子绩效对比21 表6:基于委买单及委卖单的“时长属性”构造的子因子回测结果22 表7:基于委买单及委卖单的“早尾盘属性”构造的子因子回测结果23 表8:基于委买单及委卖单的“高低价属性”构造的子因子回测结果23 表9:复合因子在不同样本空间中的表现28 表10:基于大单属性和漫长属性对成交类型进行划分32 表11:不同订单类型成交量占比因子表现34 表12:大单及漫长订单复合因子和基于订单特征的精选复合因子绩效对比35 表13:周频调仓大单及漫长订单复合因子和周频调仓基于订单特征的精选复合因子绩效对比36 深入高频:从日频行情数据到逐笔成交数据 对于量化研究者而言,好的数据是一切策略的开始。在个股数据研究过程中,我们通常可以根据数据类别的不同将其划分为基本面数据、分析师预期数据、量价类行情数据和另类数据等。在这些数据中,个股量价类行情数据凭借其格式规整、覆盖度高、更新频率快、数据量大等特征,受到研究者的广泛关注。特别地,得益于机器学习、深度学习等前沿理论的发展和计算机算力的不断提升,机器学习、深度学习等算法被广泛地应用到量化策略的构建和实战过程中,量价类行情数据在这一应用领域发挥着重要的作用。 深入高频:从日频行情数据到逐笔成交数据 传统的量价类因子构建通常基于个股日频数据,通过高开低收及成交量等指标来描绘股价的波动幅度、成交的剧烈程度以及量价之间的关联程度等。国信金工团队在《动量类因子全解析-20211213》、《反转因子全解析-20220614》、《隐式框架下的特质类因子改进-20220817》和《风险溢价视角下的动量反转统一框架 -20221207》等多篇专题报告中,对低频量价类因子的构建展开了讨论。然而随着时间的推移以及市场环境的变化,传统的低频量价因子已经不能满足研究者的需求,颗粒度更细、信息含量更为丰富的高频数据引起了市场的浓厚兴趣。 如图1所示,两个完全相同的日度K线可能对应着完全不同的日内走势。对于股票A和股票B而言,其当天开盘价、最高价、最低价和收盘价完全一致,因此两只股票的日K线完全相同。但是假如我们观察两只股票的日内走势,可以发现股票A在经历了开盘的短暂下跌后日内持续上扬,而股票B在经历了开盘的快速上涨后日内持续阴跌并于尾盘快速拉升。不同的日内价格走势意味着不同的资金博弈结果,这些结果对股价未来的走势具有一定的预测能力,而遗憾的是这些信息无法在日频数据中得以展现。 图1:完全相同的日度K线对应着完全不同的日内走势 资料来源:国信证券经济研究所绘制 为了进一步探索量价数据中的信息,近年来的量价因子构建开始向高频数据深入,例如使用个股的分钟频率数据、秒级别数据等。数据频率的提升使研究者们可以捕捉到股票更多的量与价的变