金融工程 专题报告 奇异值分解熵对股市的动态预测能力 ——“学海拾珠”系列之一百六十三 报告日期:2023-10-25 主要观点: 分析师:骆昱杉 执业证书号:S0010522110001邮箱:luoyushan@hazq.com 分析师:严佳炜 执业证书号:S0010520070001邮箱:yanjw@hazq.com 相关报告 1.《基金超额能力、规模报酬递减与价值创造——“学海拾珠”系列之一百六十二》 2.《因子间相关性与横截面资产回报 ——“学海拾珠”系列之一百六十一》《 3.交易量对波动率的非对称效应——“学海拾珠”系列之一百六十》 4.《基金定期报告中的文本语气能否预测未来业绩?——“学海拾珠”系列之一百�十九》 5.《因子投资中所蕴含的宏观经济风险——“学海拾珠”系列之一百�十八》 6.《基于隐含波动率和实际波动率的系统风险指标——“学海拾珠”系列之一百�十七》 7.《使用机器学习识别基金经理投资能力——“学海拾珠”系列之一百�十六》 8.《通胀是否会影响会计信息-股票价格间的相关性?——“学海拾珠”系列之一百�十�》 本篇是“学海拾珠”系列第一百六十三篇,本文通过奇异值分解熵探讨熵对股市的动态预测能力。在移动窗口的基础上,本文得出了每日和每月数据的时变熵测量值,并通过格兰杰因果检验,发现熵对股市动态具有预测能力。 奇异值分解熵的预测能力 文章使用格兰杰因果性检验,发现奇异值分解熵指标对于股票市场 动态有预测作用。文章还使用简单的回归模型,发现滞后的熵指标可以很好地拟合道琼斯指数的当前值,并且两者呈正相关。 熵的其他应用价值 文章认为,熵可以作为一个反映股票市场状态和可能危机的系统性 指标:熵可以衡量股票市场的信息和秩序程度,当熵发生较大变化时,可能意味着股票市场的系统性变化或危机。文章还建议将熵与随机矩阵理论和金融系统性压力指数相结合,以进一步提高对金融市场的认识和预测。 文献来源 核心内容摘选自PetreCaraiani在《PhysicaA》上发表的文章 《Thepredictivepowerofsingularvaluedecompositionentropyforstockmarketdynamics》 风险提示 文献结论基于历史数据与海外文献进行总结;不构成任何投资建 议。 敬请参阅末页重要声明及评级说明证券研究报告 正文目录 1简介4 2方法4 2.1股票的相关矩阵4 2.2奇异值分解5 2.3熵5 2.4格兰杰因果检验5 3结果7 3.1使用的数据7 3.2基于相关性的矩阵7 3.3奇异值分解熵8 3.4熵的格兰杰因果关系9 3.5统计模型10 4讨论12 风险提示:12 图表目录 图表1道琼斯工业指数的成分股7 图表2基于1年滑动窗口的月度数据的奇异值分解熵8 图表3基于50个交易日滑动窗口的每日数据的奇异值分解熵9 图表4道琼斯工业平均指数与SVDE的增长率对比(月度数据)10 图表5格兰杰因果检验统计量10 图表6回归分析11 图表7回归分析的结果:残差的动态变化11 1简介 上一次金融和经济危机再次激发了人们对更好地了解金融市场以及开发更好的工具来预测其动态的兴趣。使用相关矩阵及其分析可能会带来一些新的进展。 使用相关矩阵和各种方法综合所得信息的历史可以追溯到Mantegna(1999年),他提出了借助最小生成树过滤信息的方法。Tumminello等人(2005年)进一步发展了平面极大过滤图,该图比最小生成树携带更多信息。Tumminello等人 (2007年)对美国市场的300只股票进行了平面极大过滤图应用的深入研究,计算了不同时间段和不同时间频率的拓扑特性。 最近,鉴于金融危机的巨大影响,许多研究都在探讨利用相关矩阵检测股票市场变化以及未来危机可能性的可能性。Onnela等人(2003年)对资产树的时间动态进行了研究,并提出了一种长度测量方法,发现在黑色星期一等关键事件发生时,长度会缩小。 Kenett等人(2011年)做出了另一项贡献。他们使用标准普尔500指数1999 年至2010年的样本数据,根据股票之间的相关性设计了所谓的指数内聚力。他们的研究表明,指数内聚力可以描述系统的整体特征,可用来分析市场状态和市场崩溃的概率。 最近的研究侧重于分析不同世界股市指数之间的关系。Song等人(2011年)以每日为频率对世界股票市场指数之间的相关性进行了分析。研究发现了两种动态,一种是慢速动态,可解释为全球化趋势的加强;另一种是快速动态,可与关键事件联系起来。 Kumar和Deo(2012)利用多分形分析、随机矩阵理论和网络等不同技术,对世界市场指数之间的关系进行了比较分析。他们的主要发现是,网络方法提供了最有用的信息。 Kenett等人(2012年)将早先提出的指数内聚力(见上文)用于世界金融市场。在研究中,他们同时使用了市场指数内聚力和元相关性、市场指数间相关性和市场内相关性,并通过它们分析了世界资本市场的动态。其中最重要的发现是,西方发达市场和亚洲新兴市场有着不同的模式。 本文旨在根据美国股市主要指数道琼斯工业平均指数成分股之间相关矩阵的奇异值分解来计算熵。我们使用了日数据和月数据,以检验结果是否对所选频率敏感。我们还对得出的时变熵指数与道琼斯工业平均指数之间进行了格兰杰因果关系检验。 本文的结构如下。下一节专门讨论本文使用的方法。第三节,我们构建了熵指标,并用它来分析股票市场的动态。最后一节是对结果的讨论和对未来研究的建议。 2方法 本节将简要介绍本文所使用的方法。 2.1股票的相关矩阵 本文从金融时间序列构建相关矩阵的标准方法可能是使用不同股票之间的皮尔逊相关性,参见Kenett等人(2011)对文献中使用的方法进行的比较回顾。新的发展包括使用显著性阈值或条件相关性。相关性矩阵R可通过以下公式从相关性中构建: 其中,⟨⟩代表股票收益率的均值,而��和��是股票𝑦�和𝑦�的收益率标准差。股票i的收益率简单地由股票价值的对数差值给出,即: 其中,𝑦𝑖,�是股票i的收益率,而𝑆𝑖,�是股票i在时刻t的价格。 2.2奇异值分解 任何矩阵𝐴(𝑚𝑥𝑛)都可以用奇异值分解法分解为 其中U是𝑚𝑥�矩阵,V是𝑛𝑥�矩阵。S是一个对角矩阵,其定义如下 其中�=𝑚𝑖𝑛(𝑚,𝑛)。矩阵S的值均为非负,且从最大元素到最小元素排序。 2.3熵 根据Sabatini(2010),我们可以利用奇异值��来构建网络的复杂度度量,即熵度量。熵的最初概念可追溯到Shannon(1948年) 我们首先用公式对熵进行归一化处理: 其中∑𝜆�=1。 最后,可以用类似于Shannon公式的方法得出熵的度量: 关于相关矩阵在金融领域的应用,有几项研究采用了不同的熵测量方法。Kenett等人(2009年)利用特征值谱熵实现了对金融股票不同相关性度量中潜在信息的研究。Kenett等人(2010)基于熵度量等指标对每日金融数据进行了分析。 2.3格兰杰因果检验 它通常被理解为统计意义上的因果关系检验。该检验是格兰杰(Granger) (1969年)提出的,也可参见格兰杰(Granger)1980年的论文,根据该检验,我们可以说明某个序列是否有助于预测第二个变量的未来动态。 该测试以下述简单方程为基础: 其中,𝑦�和𝑥�为相关变量。𝑢�代表非相关干扰,而参数k和l表示滞后阶数。格兰杰检验包括检验𝛼�是否与零有显著差异。在这种情况下,我们可以说x在 格兰杰意义上导致了y。更具体地说,原假设和备择假设是: 𝐻0:𝛼𝑙=0,适用于任意l; 𝐻1:𝛼𝑙≠0,至少为某个l。 该过程包括运行上述简单方程的回归,并获得初始方程的残差平方和(RSS,以下简称"RSS"): 以及不含𝑦𝑡−�的限制版本(残差用𝑉�表示): 通过F检验(即在无效假设下具有F分布的检验)对无效假设进行检验,检验方法如下: 得出的F统计量具有l和(N-l-1)自由度分布,在一定的概率显著性水平下,将其与临界F值进行比较。如果F统计量较大,则拒绝零假设,我们就可以说x是y的原因。 最佳滞后长度是根据贝叶斯信息准则(BIC,以下简称BIC)选择的。贝叶斯 信息准则可追溯到Schwartz(1978年)的贡献。信息准则用于区分不同的模型,BIC是最常用的准则之一。该准则是在贝叶斯框架内得出的(即研究者使用先验信息和数据),在概念上类似于贝叶斯因子,见Kass和Rafter(1995年)。假设估计模型的最大似然值为Ln(𝑘),其中k是模型的参数,而n是样本的大小。最大似然法是一种估计模型的统计程序,它包括找到产生给定数据概率最大的参数。 那么,BIC准则可以写成 BIC准则根据数据选择最可能的模型。由于Ln(𝑘)已达到最大值,因此上式表明,BIC准则会导致一个最小值,并受到模型参数k和样本维度的影响。 使用格兰杰因果关系分析金融现象的文献越来越多。近期的贡献包括Billio等人(2010年)或Kenett等人(2012年)的工作。 图表1道琼斯工业指数的成分股 资料来源:《Thepredictivepowerofsingularvaluedecompositionentropyforstockmarketdynamics》,华安证券研究所 3结果 3.1使用的数据 我们使用的是美国股市主要指数道琼斯工业平均指数的成分股数据。为了检验结果的敏感性,我们使用了日频数据和月频数据。我们剔除了卡夫食品公司(KraftFoodsInc.),因为它的数据只在2001年之后可用。在使用日频数据的情况下,我们也剔除了旅行者公司(TheTravelersCompaniesInc.)的数据,因为有些观测数据缺失。 日频数据样本为1991年7月1日至2012年8月8日,月频数据样本为1991 年7月至2012年7月。图表1列出了样本中的股票及其缩写。 3.2基于相关性的矩阵 我们使用皮尔逊相关系数构建了相关矩阵。按照文献中的标准方法,我们将阈值设定为0.3,从而剔除了统计上不显著的相关性。这样做的目的是只保留统计意义上的相关性,而0.3是文献中的标准值。同时,我们没有设定一个更强的临界值,因为我们不想丢失信息。 由于我们希望从时间变化的角度来观察矩阵的熵,因此我们使用滑动窗口来构建矩阵。对于月度数据样本,滑动窗口由24个观测值组成,代表两年的月度观测 值。窗口每次向右移动一个周期/月。对于日频数据,窗口设置为250个观测值, 代表一年,在滑动窗口时,我们也采用了相同的步骤,即每次向右移动一个周期/ 天。 3.3奇异值分解熵 对于每个构建的相关性矩阵,我们都进行了奇异值分解,从而得到一个奇异值向量。然后,如方法论部分所示,将该向量转换为熵值。最后,为每个数据频率 (包括日频率和月频率)生成一个熵值向量。两种熵指数见图表2和图表3。 正如Kenett等人(2011年)所指出的,基于总体熵的市场指数可以衡量系统的信息程度及其秩序。它的变化可能暗示着市场动态的系统性变化。它们可能也表明金融市场更加混乱。我们看到月熵指数和日熵指数变化最大的时间段也支持这些解释。有三个这样的时期,它们与一些最大的市场调整相对应。第一个是1998年, 与亚洲危机的影响相对应。第二个时期是2001年,与互联网泡沫破灭后的市场下 跌相对应。最后一次重大变化始于2008年,与上一次金融危机相对应。 图4比较了道琼斯指数和熵指数的月度数据增长率。道琼斯指数比熵指数波动更大,但熵指数应被视为系统指数,其波动应较小。熵指数在增长率方面的表现也不错。 图表2基于1年滑动窗口的月度数据的奇异值分解熵 资料来源:《Thepredictivepowerofsingularvaluedecompositionentropyforstockmarketdynamics》,华安证券研究所 图表3基于50个交易日滑动窗口的每日数据的