股票网络中心度因子 本文测试了全A、沪深300和中证1000在不同时间跨度下(240分钟、22交易日、63交易日、126交易日)利用最小生成树构建的网络及三种中心度因子(度中心度、接近中心度和中介中心度)的表现。 结果表明,全A在22交易日下的接近中心度因子表现较好,其多空年化收益为24.24%,IC均值为0.043。 接近中心度在22交易日网络中表现最好的原因 从结果来看,以全A作为分析样本,接近中心度的表现相对于中介中心度和度中心度要更好,时间跨度22交易日的表现最好,而日内1分钟股价变化对未来一期几乎没有预测作用。 接近中心度更接近几何上的中心位置,其更能反应节点在网络中的重要程度。 度中心度仅仅利用了节点的连接数量,即节点的连接数有多少,但连接数多,并不代表节点处于网络的核心位置,中介中心度主要强调了该节点在其他节点之间的调节能力。 从时间上来说,22交易日的时间跨度较好。日内1分钟股价变化数据噪声较大,网络不够稳定。63个交易日或者126个交易日的窗口可能包含了太多的历史数据,反而降低了对当前市场条件的敏感性。 从股票池来说,越大的股票池,IC衰减越慢,其可能原因在于越多节点数量的网络结构更加稳定。 从风险因子角度理解接近中心度可以获得收益的原因 从统计结果上来,在1%的置信度水平下,原始的接近中心度水平和特质波动因子呈现反向关系;在5%的置信度水平下,原始的接近中心度水平和动量因子呈现反向关系,和BETA因子呈现正向关系,和BTOP因子呈现出正向关系,在10%的置信度水平下,和市值因子和流通性因子呈现反向关系。 从特质波动因子角度,特质波动因子与未来收益呈现反向关系得到了众多实证。可能的解释是高特质波动率的股票被视为类似于彩票的股票,意味着这些股票的高回报概率低,但仍然吸引了投资者。从网络的角度上,这些特质性波动大的股票往往位于结构的边缘。 从动量因子角度来说,中心度因子高的股票受到的关注更多,因此其短期的动量更大,BETA也更大。 定性理解接近中心度可以获得收益的原因 股票网络中的中心度越高,意味着该股票与其他股票之间的关联性更强,市场参与者关注度更高。这种高中心度的股票通常会更快、更广泛地获取市场信息。 因此,当有利好信息传递时,这些股票能够迅速反映出信息,投资者可以更早地捕捉到这些机会。另外的,高中心度的股票往往会影响整个网络的其他股票。 这种表现可能会扩散到其他关联股票中,从而产生溢出效应,进一步提升这些高中心度股票的市场关注度和资金流入,推高其价格。 投资建议: 利用复杂网络计算股票中心度因子可能获得一定超额收益。 风险提示: 基于历史结果计算不代表未来收益。 投资主题 报告亮点 本文将复杂系统网络引入股票市场获得个股的中心度因子,经过测试发现,三种股票中心度因子中,接近中心度因子表现最好。从时间跨度看利用22交易日股价变化构建的网络表现较好。股票池越大,IC衰减越慢。此外,本文尝试从风险因子定量和定性角度理解这一异象来源。 投资逻辑 本研究利用复杂网络理论刻画股票市场的网络结构,在网络中,接近中心度越大的股票未来收益可能更好。 一、基于股价变动构建网络 (一)常见基于股价变化构建网络的方式 梳理复杂网络方法在金融市场中的应用,Mantegna最早将复杂网络研究方法引入股票市场,Barabasi在2003年的研究中证实美国股票市场满足无标度网络性质。在国内股票市场的研究中,Huang在2009年的研究中证实沪深1080只股票满足幂律分布,Mai在2014年的复杂网络系统研究表明沪深300的核心行业为工业,谢凌峰和陈志2016年的研究中表明在沪港通开通后网络的平均度和聚类系数都有了显著的上升。 在上述的研究中,构建网络的方法大致可以分为三类,第一类是类似牛晓健(2021)的做法,采用阈值截断法(Threshold Truncation Method,TTM)构建网络;第二类是类似于Huang(2009)的做法,采用平面最大过滤图法(Planar Maximally Filtered Graph,PMFG)构建网络;第三类是类似于谢赤(2021)的做法利用最小生成树(Minimum Spanning Tree,MST)法构建网络。 最小生成树法对网络信息的过滤最为严格,只提取网络中各节点间相关性最大的主要信息;平面最大过滤图方法最大限度上保留了网络中与有效信息相关的连边,但有效信息分析相对复杂、网络计算速度相对较慢;阈值截断法基于不同阈值构建的网络结构差异较大。 本文产生因子的方法主要是利用最小生成树法构建网络。构建的方法如下: 1计算过去一段时间股票i和股票j股价变动的相关性,计为𝜌; 𝑖𝑗 2将相关性转化为股票i和股票j之间的距离𝑑,𝑑= √2(1 − 𝜌); 𝑖𝑗 𝑖𝑗 𝑖𝑗 3当获得不同股票之间的距离以后,可以通过Prim算法和Kruskal算法构建网络。 最终构建的网络应当满足,所有边的权重之和最小,包含图中的所有顶点,并且没有环。 例如2024年8月30日采用过去22交易日利用最小生成树法构建中证白酒网络示例如下: 图表1中证白酒网络示例 在中证白酒网络中,可以观察到不同股票(节点)在网络中的位置不同,例如顺鑫农业位于网络的外层,其仅与金种子酒连接,而五粮液位于内层,其与口子窖、古井贡酒和贵州茅台都有连接。 (二)衡量节点位于网络位置的指标 为了衡量节点在网络中的位置和重要性,定义以下节点位置衡量指标。 1、度中心度 节点度中心度,计算方法为节点的连接的边的数量除以可能的最大连接数,对于n个节点的网络,最大连接数为n-1,即: 𝑑= deg(v) 𝑚⁄ 𝑣 其中deg为节点v的连接边数量,m为最大连接数(n-1)。 2、接近中心度 接近中心度衡量了节点与其他节点的距离,计算方法为加总节点到其他所有节点的最短距离,接近中心度也通过最大连接距离进行归一化,即: 𝑐=(n − 1) 𝑑⁄ 𝑣 其中d为节点与其他节点连接距离的加总。 3、中介中心度 中介中心度衡量了,节点位于其他节点的最短路径上的程度,即: 𝜎(𝑠, 𝑡|𝑣)𝑏= ∑ 𝑣 𝜎(𝑠, 𝑡) 𝑠,𝑡 𝜎(𝑠, 𝑡)为节点s,t的最短路径的数量,𝜎(𝑠, 𝑡|𝑣)为s和t最短路径经过节点v的数量。 图表2中证白酒三种中心度 我们将三种中心度作为因子,计算其在不同时间跨度和样本中的表现。由于股票之间的网络由股票价格变动的相关性计算而来,而股票之间的相关性与其选取的时间跨度相关。 我们考察了不同选取时间段和不同样本下的网络及其对应的中心度因子。 我们分别计算了在日内(240min)、22交易日(22d)、63交易日(63d)和126交易日(126d)时间跨度下的中心度,样本分别考察了全A、沪深300和中证1000样本下的表现,调仓周期为5个交易日。 二、因子计算流程 (一)因子评价指标 为了阅读的流畅性,这里简要介绍常用的因子处理方法和评价标准。 1、回归法 即在T期截面上,计算个股因子暴露对T+1期收益的解释力度。 𝑇+1 𝑇𝑇 𝑇𝑇𝑗𝑗 T𝑇 𝑇 𝑟 = 𝑋𝑎+ ∑𝐼𝑛𝑑𝑏+ ln(𝑀𝑉)𝑏+ 𝜀 𝑗 𝑇+1 𝑇 其中,𝑟 所有个股在第T+ 1期的收益率向量,𝑋为个股在第T期的单因子的暴露度向量,𝐼𝑛𝑑为个股的行业哑变量,𝑏为行业收益,ln(𝑀𝑉)为流通市值取对向量,𝑏为市值收益,𝜀为残差向量。 𝑇𝑗𝑇 𝑇𝑗 T 𝑇 这里个股的第T期的单因子的暴露度向量,首先对原始因子进行中位数去除极值,对于大于阈值的因子值直接替换为阈值,并进行标准化处理,若有缺失值,缺失值直接剔除。 为了求解上述方程,本文参考barra cne6的处理方法,对上述方程进行加权最小二乘回归,回归系数为流通市值取平方根。 回归可以获得因子的因子收益率序列(即所有截面期回归系数构成的序列),对于每一期的回归,可以获得假设检验:𝑎= 0和备择假设:𝑎! = 0。假设检验对应的t统计量为: 𝑇 𝑇 𝑇 𝑎 𝑆𝐸(𝑎) t = 𝑇 𝑇 其中𝑆𝐸(𝑎)为归回的标准误差。比较t统计量的绝对值是否大于临界值(1.96对应5%显著性水平,实际使用中通常取2),若大于则认为系数显著。 对于归回法,通常关注: 1)𝑎的均值,其反应因子收益大小; 2)t值序列的绝对值的均值,其反映了因子是不是显著; 3)t值序列大于2的占比,其反应因子显著性是不是稳定; 4)t值均值,其反应因子方向上是不是稳定。 2、IC法 即计算当期因子暴露与下一期收益的Spearman相关系数(Rank IC)。 𝑇+1 𝑇 𝐼𝐶= corr(𝑟 , 𝑋) 𝑇 先对因子进行中位数去除极值,并进行行业和市值的中性化处理。 对于IC序列,通常关注: 1)IC序列均值,其反应因子的显著性; 2)IC序列标准差,其反应因子的稳定性; 3)ICIR,即IC序列均值除以IC序列标准差,其兼顾了因子的稳定性和显著性; 4)IC大于0的比例,反应因子方向是不是稳定。 5)IC的半衰期,即计算当期因子暴露与接下来第N期收益的IC,观察IC序列均值的下降速率。 3、分层测试 对因子进行中位数去除极值并进行行业和市值中性化以后,将每一期因子按照从小到大分成5层,每层组内股票等权,测试其组合的收益等表现情况。 通常关注: 1)分组的年化收益和累计收益,反应因子分层单调性; 2)分组的多空(第五组减去第一组的组合收益)收益表现,包括多空年化收益、多空回撤情况、多空的胜率表现等,反映了因子收益的稳健性和单调性; 3)分组组合的换手率,反应实际交易的换手水平。 (二)度中心度因子表现 图表3度中心度因子表现 考虑IC在不同分组中的表现。 图表4度中心度因子在不同股票集合和不同时间跨度下的IC表现 从IC序列上来看,在不同的股票集中,日内(240分钟)因子表现较差,而22日中心度因子表现较好。 以全A为例,22交易日跨度的因子的表现如下图所示: 图表5 IC累计走势 图表6 IC半衰期曲线 图表7分组年化收益图 图表8分组累计收益图 从结果上看,度中心度因子的IC表现稳定,从IC衰减来看,其IC衰减较快,分层效果不佳。 沪深300和中证1000的22交易日度中心度结果见附录。沪深300、中证1000和全A对比来看,度中心度因子表现出了因子非线性收益表现,第五组收益显著跑赢剩余四组,且剩余四组的收益分层不明显。 从因子的半衰期来看,全A的IC衰减要慢于沪深300和中证1000。可能原因是股票池越大,节点数量越多,其网络稳定性越好。 (三)接近中心度因子表现 图表9接近中心度因子表现 图表10接近中心度因子在不同股票集合和不同时间跨度下的IC表现 从IC序列上来看,在不同的股票集中,日内(240分钟)因子表现较差,而22日中心度因子表现较好。 以全A为例,22交易日接近中心度的表现如下图所示: 图表11 IC累计走势 图表12 IC半衰期曲线 图表13分组年化收益 图表14分组累计收益图 从全A的结果上看,接近中心度因子的IC表现稳定,从IC衰减来看,其IC衰减相对较慢,半衰期为三期,分层效果较好。 沪深300和中证1000的22交易日接近中心度因子表现结果见附录。沪深300、中证1000和全A对比来看,接近中心度因子表现出的因子分层收益效果较好。 从因子的半衰期来看,全A的IC衰减要慢于沪深300和中证1000。 (四)中介中心度因子表现 图表15中介中心度因子表现 图表16中介中心度因子在不同股票集合和不同时间跨度下的IC表现 以全A为例,22交易日中介