您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[华安证券]:“学海拾珠”系列之一百六十一:因子间相关性与横截面资产回报 - 发现报告
当前位置:首页/其他报告/报告详情/

“学海拾珠”系列之一百六十一:因子间相关性与横截面资产回报

2023-10-12严佳炜、吴正宇华安证券L***
“学海拾珠”系列之一百六十一:因子间相关性与横截面资产回报

因子间相关性与横截面资产回报 ——“学海拾珠”系列之一百六十一 金融工程 专题报告 主要观点: 报告日期:2023-10-12 分析师:严佳炜 执业证书号:S0010520070001邮箱:yanjw@hazq.com 分析师:吴正宇 执业证书号:S0010522090001邮箱:wuzy@hazq.com 相关报告 1.《信息不确定性、投资者情绪与分析师报告——“学海拾珠”系列之一百�十四》 2.《通胀是否会影响会计信息-股票价格间的相关性?——“学海拾珠”系列之一百�十�》 3.《使用机器学习识别基金经理投资能力——“学海拾珠”系列之一百�十六》 4.《基于隐含波动率和实际波动率的系统风险指标——“学海拾珠”系列之一百�十七》 5.《因子投资中所蕴含的宏观经济风险——“学海拾珠”系列之一百�十八》 6.《基金定期报告中的文本语气能否预测未来业绩?——“学海拾珠”系列之一百�十九》 7.《交易量对波动率的非对称效应— —“学海拾珠”系列之一百六十》 本篇是“学海拾珠”系列第一百六十一篇,研究因子间的相关性对因子配置过程中因子筛选的影响,并提出OWL模型提升组合表现。在高维特征中,因子间通常高度相关,但传统模型往往忽略因子相关性从而影响模型的有效性和鲁棒性。本文作者首先提出一个基于LASSO的有序加权LASSO估计器(OWL)在放宽假设的条件下分解因子,在美国市场上进行实证分析,与其他基准方法相比,OWL可以有效识别出因子的显著性,且样本外对冲组合获得最高的夏普比率。 回到国内市场,如何通过科学的方法进行因子筛选始终是一个重要的研究方向,因子间的相关性,尤其是尾部相关性会显著影响组合业绩的稳定性,本文提出的OWL估计法值得借鉴。 高维环境下因子通常高度相关,但传统方法存在劣势 本文考虑的80个因子中,有64%的因子间相关系数(绝对值)大 于0.5。而文献中流行的LASSO的方法尽管考虑了因子相关性,但是压缩时任意分配或者需要先验知识将导致估计量不稳定。 OWL估计器具有分组特性和渐近一致性 OWL估计量具有分组特性,将高相关的因子间分配相似的系数;且 在放宽假设条件下,OWL估计量是渐近一致估计。在蒙特卡洛模拟中,证实了OWL的理论统计特性,且该估计器的表现优于其他基准方法。 OWL估计器在实证中获得最优的表现 使用1980-2017年美股数据进行实证分析,发现OWL可以有效识 别出市场因子为显著因子,而其他基准方法由于市场因子和其他因子往往高度相关而无法识别。此外,样本外对冲组合可以获得最高的夏普比率,且较小的偏度和峰度,使得收益率分布更接近正态。 风险提示 文献结论基于历史数据与海外文献进行总结;不构成任何投资建议。 敬请参阅末页重要声明及评级说明证券研究报告 正文目录 1引言4 1.1相关文献5 2方法论6 2.1风险价格还是风险溢价?7 2.2模型7 2.3有序加权LASSO(OWL)估计器8 2.3.1分组特性8 2.3.2渐近特性9 2.4关于横截面资产回报和因子动物园的讨论11 3模拟11 3.1模拟设计11 3.2模拟结果12 4实证分析13 4.1数据13 4.2构建因子动物园14 4.3构建测试资产16 4.4估计结果:哪个因子最重要?17 4.5样本外测试19 5结论21 风险提示:22 图表目录 图表1模拟结果13 图表2异象因子15 图表3因子相关系数16 图表4估计结果18 图表5不同方法的全/子样本的因子选择20 图表6�因子模型的样本外组合表现21 1引言 有大量文献试图研究和剖析高维公司特征(或与公司特征相关的因子,又称因子动物园)与横截面资产回报之间的关系,例如,参见Cochrane(2011),Harveyetal.(2015),Greenetal.(2017),Houetal.(2020),Fengetal. (2020),Freybergeretal(2020)等。然而,相关文献中关于因子相关性和对横截面资产的影响和意义的讨论还是远远不够的。许多高维的公司特征(或者相关的因子动物园)彼此间是高度相关的,因此忽略因子间相关性会影响标准模型的鲁棒性,从而对这些模型的有效性产生怀疑。例如,本文的实证分析表明由于市场因子和因子动物园中的很多因子高度相关,标准的计量模型,如Fama-Macbeth两步回归和LASSO回归,都无法确定市场因子是驱动横截面资产回报的重要因子。 在本文中,作者进一步开发和利用一个LASSO型估计器,即有序加权LASSO估计器(OWL,Figueiredo和Nowak(2016))以找出影响横截面资产回报的主要因子,重点是分解相关的因子。换句话说,当因子高度相关时,如何稳健地选择重要因子?本文对相关文献的贡献有两个方面。第一,相较于Figueiredo和Nowak (2016),进一步发展了在宽松假设下的OWL估计量的渐近特性,这将适合于经济和金融相关的研究问题,并且证明该估计量在一些温和条件下的一致性。此外,本文作者将OWL收缩法与随机折现因子法(SDF)(Cochrane,2005)相结合来选择因子。在此基础上,本文推导出资产回报的横截面因子选择的分组特性(即,定 量地识别横截面资产回报的高相关因子的条件)。蒙特卡洛模型显示与其他机器学 习算法(如LASSO,自适应LASSO和ElasticNet)相比,OWL收缩法取得了良好的效果,尤其是在因子高度相关的情况下。 第二个贡献是为横截面资产定价文献中一些令人困惑的问题提供了新的见解。因子间的高度相关性往往会削弱许多因子的统计上的显著性,特别会使市场因子对 资产价格的推动作用变得微不足道。避免这一问题的传统方法通常是在模型中排除 高相关性的因子。例如,Greenetal.(2017)在Fama-MacBeth框架中排除了与 Beta相关的因子后才找到了驱动美国股市的横截面收益的因子。但是这个方法需要设定一个阈值来决定哪些因子需要被剔除,而这个阈值的选择往往缺乏严谨的理由。此外,如果两个因子高度相关,要决定舍弃哪个、保留哪个并非易事。相比之下,本文的模型更具有鲁棒性,高相关性的因子获得相似的系数。因此,在使用本文的模型前,避免了任何的因子筛选。此外,本文作者提供大量的证据表明,尽管市场因子由于与其他因子高度相关在标准模型中被认为不显著,但在本文的估计框架中,市场因子仍是驱动横截面资产回报的一个重要因素。这与Harvey和Liu(2021)利用Bootstrap得出的新发现不谋而合。在下文将对此进行详细的讨论。 在实证分析中,本文考虑Greenetal.(2017)中记载的100个因子进行因子投资,然后根据Freybergeretal.(2020)的方法,使用各种方法选择的因子稀疏集来形成对冲组合。为此,本文首先通过投资组合排序为每个公司特征构建异象因子(即市场因子以外的因子)。然后,按照Fengetal.(2020)方法形成数千个根据双变量排序的投资组合作为本文的测试资产。值得强调的是,本文使用的是已排序的投资组合(按照公司特征)而非个股作为测试资产。这是因为大部分个股都是小盘股,在总市值中所占的权重很小,而少数的大盘股在总市值中所占的比例很大。 因此,如果使用个股作为测试资产,因子选择将会偏向于小市值股票,不是整个市场。相反,使用市值加权的投资组合作为测试资产可以有效地检验因子在总体水平上的效果。 本文的实证结果是对资产定价文献中一些常见观点的补充和挑战。第一,当采 用Fama-MacBeth回归时,本文作者发现因子载荷间存在严重的相关性:68%的相关系数的绝对值高于0.5,这使得对使用像Fama-MacBeth回归法和LASSO收缩法等的标准估计方法的有效性产生了怀疑。本文作者发现,Fama-MacBeth法,LASSO和ElasticNet收缩法都未能识别出市场因子是驱动横截面资产回报的重要因素。这是因为市场因子与许多基于公司特征的因子是高度相关的,而这些因子之间的相关性削弱了这些方法推断的有效性。相反,OWL收缩法能够将市场因子确定为横截面资产回报的最重要的驱动因素。这一发现与Harvey和Liu(2021)的实证结果相吻合。 第二,本文作者发现流动性因子、资产增长率相关因子、盈利因子和投资因子 是横截面平均回报变化的主要驱动因素。这一发现与Houetal.(2020,2021)的研究结果相一致。有趣的是,本文作者还发现规模效应在1980-2000年期间消失了,这在现有的文献中已有详细的记载,可参见Amihud(2002)和Asnessetal. (2018)。然而,再剔除更多的小盘股(小于NYSE上市股票的40%)后,规模效应变得再次显著,这意味着一些小市值的垃圾股很有可能导致规模效应的消失。一旦垃圾股被剔除,规模效应就会再次出现,这与Asnessetal.(2018)的发现(如果控制了你的垃圾股,规模变得很重要)相一致。 第三,本文作者采用与Freybergeretal.(2020)类似的步骤进行样本外检验以找到哪个因子筛选方法最能准确预测横截面的资产回报并使用这些因子构建对冲组合。同时,作者对对冲组合进行了比较,发现OWL选择的因子构建的对冲组合的样本外夏普比率比其他方法高出20%至30%,这表明与其他基准方法相比,OWL收缩法能够在因子相关性普遍存在的情况下挑选出对横截面资产回报最优的因子组合。 最后,值得强调的是,像许多其他的机器学习算法一样,OWL估计量是有偏的。因此,如果不进一步开发一个无偏版本并推导出它的渐近性质,该模型就不适合进行统计检验。在2.4节将详细阐述这一问题。说到这里,作者强调本文的主要目的不是进行统计检验以确定一个简明的资产定价模型——尽管这类研究议题至关重要,但他可以是未来研究的一个主题。不过,本文侧重于高维因子模型中估计的鲁棒性和因子的筛选。然后,作者假设一个稀疏模型,比如�因子模型,并将这种因子选择方法与其他基准进行比较。本文的实证结果与近期文献中的一些实证结果不谋而合,同时也为横截面资产定价面临的一些令人困惑的问题提供了解释。 1.1相关文献 本文建立在一系列致力于识别横截面资产回报的定价因子的文献基础上,例如,参加Fama和French(1992),Carhart(1997),Houetal.(2014),Fama和French(2016),Fama和French(2018)等。自Sharpe(1964)和Lintner (1965)提出CAMP以来,经历了半个多世纪的发展,已有数百个异象因子被提出来解释横截面资产回报。然而,Herveyetal.(2015)记录了316个因子,并发现其中大部分因子是数据窥探的结果。Houetal.(2020)试图复制447个异象因子,发现其中64%至85%的因子无法复制,这取决于显著性水平的选择。Kan和Zhang(1999)表示无用的因子会导致检验结果产生偏差,导致接受因子的阈值低于正常水平。Gospodinovetal.(2014)提出一种模型误设的鲁棒性检验来解决伪因子,使用分步检验法逐一剔除无用的因子。Fama和French(2018)使用夏普比率和应用Barillas和Shanken(2018)的RHS方法来选择因子。Harvey和Liu (2021)提出了一种逐步Bootstrap方法来检验因子,并且发现市场因子是影响横 截面收益的最重要因素。 本文还涉及到选择和测试因子方法的研究。Fama和MacBeth(1973)提出两步回归法,通常用于检验具有显著风险溢价的因子。Greenetal.(2017)使用Fama-MacBeth回归,在美国股票市场的100个候选因子中找到显著的因子。Lewellen(2015)研究了由Fama-MacBeth回归得出的收益预测的截面性质,并且发现不同股票的预测差异大,对真实回报有很强的预测能力。 本文亦为使用机器学习技术解决金融研究问题的文献快速增长做出了贡献。Tibshirani(1996)提