海外文献-随机矩阵系列(1)金融数据相关性的随机矩阵近似 核心观点: 金融数据互相性的随机矩阵近似。作者使用随机矩阵理论(RMT)的方法分析了不同股票价格波动之间的相互关系。使用两个大型数据库,作者计算 了收益的互相关矩阵C,该矩阵由(i)1994年至1995年两年期1000只美国股票的30分钟收益,(ii)1996年至1997年两年期881只美国股票30分钟收益和(iii)1962年至1996年35年期422只美国股票1天收益构成。作者针对“全假设”一个由相互不相关的时间序列构建的随机相关矩阵来检验C的特征值λi的统计量。作者发现C的大多数特征值都落在随机相关矩阵的特征值的RMT界[λ-,λ+]内。作者在随机矩阵的普遍性质的RMT界内测试了C的特征值,并发现与随机矩阵的高斯正交系综的结果很好地一致这意味着测量的互相关系数具有很大的随机性。此外,作者发现与RMT界外的特征值相对应的特征向量的特征向量分量的分布显示出与RMT预测的系统偏差。此外,作者发现这些“特征向量”在时间上是稳定的。作者分析了偏离特征向量的分量,发现最大特征值对应于所有股票的共同影响。最后,作者讨论了在构建风险收益率稳定的股票投资组合中的应用。 风险提示:报告结论基于历史文献,所以报告结论有可能无法正确预测市场发展,报告阅读者需审慎参考报告结论。文中观点仅供参考,不构成投资建 议,报告阅读者需审慎参考报告结论。 分析师 吴俊鹏 :010-80927631 :wujunpeng@chinastock.com.cn分析师登记编码:S0130517090001 相关研究 金融工程●跟踪研究 2023年12月31日 www.chinastock.com.cn证券研究报告请务必阅读正文最后的中国银河证券股份有限公司免责声明 目录 一、引言3 (一)动机3 (二)背景3 二、分析数据4 三、相关系数统计4 四、相关矩阵的特征值分布5 五、普适性:C的大部分特征值是否与RMT一致?7 六、特征向量统计8 七、风险提示10 一、引言 (一)动机 研究度量股票之间的相关性是一个重要的话题,一方面因为科研方向关于经济复杂的动力系统的研究,另一方面在为资产配置和投资组合风险估计等实际应用中也需要。与大多数物理系统不同,在大多数物理系统中,人们将子单元之间的相关性与基本的相互作用联系起来,股市问题的潜在“相互作用”尚不清楚。在这里,作者通过应用随机矩阵理论的概念和方法来分析股票之间的相互关系,该理论是在复杂量子系统的背景下发展起来的(其内部相互作用的确切性质尚不清楚)。 为了量化相关性,作者首先计算股票的价格变化(“回报”)并将其归一化,并进一步计算相关系数矩阵。 分析其相关系数Cij的的困难包括以下几个原因: 1市场条件随着时间的推移而变化,任何一对股票之间存在的交叉关系都可能不是固定的。 2用于估计互相关性的时间序列长度是有限,而这会产生所谓“测量噪声”。 如果使用长时间序列来规避有限长度的问题,估计将受到互相关的非平稳性的影响。由于这些原因,经验测量的互相关将包含“随机”贡献。 如何从Cij中识别那些在研究的时间段内主要相关(平均)?为了回答这个问题,将C的统计数据与随机相关(由相互不相关的时间序列构建的相关矩阵)的“原假设”进行比较。如果C的性质符合随机相关矩阵的性质,那么根据经验测量的C的内容是随机的。相反,C的性质与随机相关矩阵的性质的偏差传达了关于“根”相关关系的信息。因此,作者的目标是将C的性质与随机相关矩阵的性质进行比较,并将C的内容分为两组:(a)C的符合随机相关矩阵性质的部分(“噪声”)和(b)C的偏离部分 (“信息”)。 (二)背景 具有独立随机元素的矩阵(随机矩阵)的统计性质的研究起源于核物理,有着丰富的历史。在核物理学中,50年前人们感兴趣的问题是分析复杂的核能级,而现有的模型无法解释这一点。随机矩阵理论 (RMT)是由Wigner、Dyson、Mehta和Others在这种背景下发展起来的,目的是解释复杂量子系统的能级统计。他们假设,描述重核的哈密顿量可以用矩阵H来描述,矩阵H具有从概率分布中提取的独立随机元素Hij。基于这一假设,做出了一系列显著的预测,这些预测与实验数据一致。对于复杂的量子系统,RMT预测代表了所有可能相互作用的平均值。与RMT普遍预测的偏差可以得到所研究系统的特定非随机性质,为潜在的相互作用提供了线索。 最近应用RMT方法分析C性质的研究表明,约98%的C特征值与RMT预测一致,表明测量的互相关具有相当大的随机性。还发现,对于2%的最大特征值RMT预测存在偏差。这些结果引发了以下问题 (1)对RMT的偏差有什么可能的解释? (2)与RMT的偏差是否稳定(随着时间)? (3)从这些结果中可以推断出C的结构是什么? (4)这些结果的实际意义是什么? 在下文中,作者将详细讨论这些问题。作者发现,C的最大特征值代表了整个市场的影响,这对所有股票来说都是共同的。作者对偏离RMT的剩余特征值内容的分析表明,同类型行业的股票、具有大市场资本的股票和在特定地理区域有业务的公司的股票之间存在交叉相关性。通过计算特征向量从一个时间段到下一个时间周期的标量乘积,作者发现“证明特征向量”具有不同的时间稳定性,通过标量乘积的大小来量化。最大的两到三个特征向量在很长一段时间内是稳定的,而在偏离特征向量时,时间稳定性随着相应的特征值接近RMT上界而降低。 为了检验偏差特征值是C中唯一的“经典”信息,作者将C的特征值统计量与实对称随机矩阵的已知普遍性质进行了比较,发现与RMT结果一致。使用逆参与比的概念,作者分析了C的特征向量,并在特征值谱的两个边缘发现了大的逆参与比值——这为C提出了一个“随机带”矩阵结构。最后,作者讨论了在寻找一种在不暴露于不必要风险的情况下提供给定回报的投资的实际目标中的应用。此外,作者的方法也有可能在各种应用中用于过滤经验测量的互相关矩阵中的“噪声”。 作者的组织结构如下。第二节包含分析数据的简要说明。第三节讨论了互相关系数的统计。第四节讨论了C的特征值分布,并与RMT结果进行了比较。第五节检验了实对称随机矩阵普遍性质的特征值统计量C,第六节详细分析了偏离RMT的特征向量的内容。第七节讨论了偏差特征向量的时间稳定性。第八节介绍了RMT方法在构建具有稳定风险回报率的“最佳”投资组合中的应用。最后,第九节给出一些结论性意见。 二、分析数据 作者分析了两个不同的数据库,涵盖了美国三大证券交易所的证券,即纽约证券交易所(NYSE)、美国证券交易所(AMEX)和NASDAQ。 数据库一。作者分析交易和报价(TAQ)数据库,该数据库记录了所有三家证券交易所上市的所有主要证券的所有交易。作者从这个数据库中提取了1994年1月3日开始日期1000只市值最大的股票的价格[19]的时间序列。作者分析了1994-1995两年期间的该数据库[20]。从这个数据库中,作者形成了L=6448条记录,记录了1994-1995两年期间N=1000只美国股票的30分钟回报率。作者还分析了881只股票(作者在1994-1995年分析的1000只股票中)的子集价格,这些股票在1996-1997年又存活了两年。从这些数据中,作者提取了1996-1997两年期间N=881只美国股票30分钟回报的L=6448条记录。 数据库二。作者分析了RSP数据库。CRSP股票涵盖1925年开始在纽约证券交易所上市的普通股,1962年开始在美国证券交易所上市,1972年开始在纳斯达克上市。这些文件提供了完整的历史描述性信息和市场数据,包括全面的分布信息、高点、低点和收盘价、交易量、流通股和总回报。作者分析了1962-1996年35年期间存续的股票的日回报率,并提取422只股票8685交易日数据。 三、相关系数统计 作者首先检查P(Cij)30分钟从TAQ数据库返回的1994-1995和1996-1997两年期[图1(a)。作者注意到P(Cij)是不对称的,并且以a为中心正平均值(^Cij)>0),这意味着正相关行为比负相关(反相关)行为更普遍。其次,作者发现<Cij>取决于时间,例如,1996-1997年期间的<Cij>比1994-1995年期间更大。作者将P(Cij)与对照组控制组进行对比(控制是一个相关矩阵R,其元素Rij由N=1000个相互不相关的时间序列构成,每个时间序列的长度L=6448,使用股票经验收益分布)。图1(a)显示,与P(Cij)相比,P(Rij)与零均值高斯一致。此外,作者看到Cij<0(对应于反相关)的P(Cij)部分在对照的高斯曲线内,这表明在C中观察到的负互相关可能是随机性的影响。此外,作者对随机返回时间序列生成的替代门相关矩阵的分析显示出与对照的高斯曲线的良好一致性[图第1(b)段]。 图1(c)显示了1962年至1996年35年期间,CRSP数据库中五个不重叠的7年子周期的每日收益P(Cij)。作者看到,^Cij)的时间依赖性在该图中更为明显。特别是,包含1987年10月19日市场崩溃的时期具有最大的平均值^Cij),这表明存在交叉相关性,这种相关性在波动期比平静期更明显[23-25]。作者通过将^Cij)与市场的平均波动率(使用标准普尔500指数衡量)进行比较来检验这种可能性,该指数显示了在大波动时期^Cij的大值(图2)。 图1:P(Cij)分布 资料来源:VasilikiPlerou等(2002),中国银河证券研究院 图2:S&P500波动率 资料来源:VasilikiPlerou等(2002),中国银河证券研究院 四、相关矩阵的特征值分布 如上所述,作者的目的是从C中提取有关互相关的信息。因此,作者将C的性质与随机互相关矩阵的性质进行比较。在矩阵表示法中,相关矩阵可以表示为 C=1/LGGT, 其中G是具有元素[Gim]的N×L矩阵。作者考虑一个随机相关矩阵 R=1/LAAT, 其中A是一个N×L矩阵,包含L个随机元素的N个时间序列,目标为零均值和单位方差,它们是相互不相关的。 随机矩阵(如R)的统计性质是已知的。特别地,在极限N→∞,L→∞中,使得Q=L/N(>1)是固定的,解析地证明了随机相关矩阵R的特征值λ的概率密度函数Prm(λ)由下式给出 其中λ±分别是R的最小和最大本征值,由下式给出 对于有限的L和N,Prm(λ)的截断被快速衰减的代替。 对于于高斯分布矩阵元素目标的情况是精确的。从数字上看,作者发现,对于幂律分布目标的情况,控制相关矩阵的特征值分布与分布函数表现出良好的一致性。特别是,对于股票收益时间序列为幂律分布的情况,作者发现与分布函数方程一致。 接下来,作者将C的特征值分布P(λ)与Prm(λ)进行比较。作者检验N的Δt=30分钟,N=1000股票,每股票包含L=6448个记录。因此Q=6.448,作者从方程中得到λ-=0.36和λ+=1.94。作者计算C的特征值λi,其中λi按顺序排列(λi+1>λi)[30]。图3(a)比较了概率分布P(λ)与Q=6.448时计算的Prm(λ)。作者注意到存在一个明晰的本征值“块”,它落在Prm(λ)的边界[λ-,λ+]内。作者还注意到几个(≈20)最大和最小特征值的偏差。特别是,2年周期的最大特征值λ1000≈50,是λ+(1.94)的≈25倍。 图3:特征值分布 资料来源:VasilikiPlerou等(2002),中国银河证券研究院 由于分布函数仅对L严格有效→∞和N→∞,作者必须测试,作者在图中发现的偏差。图3(a)对于最大的个特征值不不受L和N的有限值的影响。为此,作者将P(λ)与等式的随机相关矩阵的RMT结果Prm(λ)进行对比。由N=1000个互不相关的时间序列构建,生成的时间序列具有与收益的经验分布相同的幂律尾,每个具有相同的长度L=6448。作者发现也与分布函数很好的相一致(图3(b))。因此表明图中最大的几个特征值并不因为L和N是有限的,或者收益分布是肥尾的。