您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[山西证券]:多因子模型:基于行业相关性因子的指数增强策略 - 发现报告
当前位置:首页/其他报告/报告详情/

多因子模型:基于行业相关性因子的指数增强策略

2024-10-11黎鹏、崔豪轩山西证券S***
多因子模型:基于行业相关性因子的指数增强策略

山证金工团队 分析师:黎鹏 执业登记编码:S0760523020001邮箱:lipeng@sxzq.com 研究助理:崔豪轩 邮箱:cuihaoxuan@sxzq.com 投资要点: 主题报告 2024年10月11日 多因子模型: 基于行业相关性因子的指数增强策略 传统的多因子模型 优劣:传统模型的优势在于其简单、直观,适用范围广且便于历史回测;然而其劣势在于忽略了行业内部的差异性,也未充分考虑行业间的相关性及局限性。 胜率回测:该模型在任何基准条件下都难以获得稳定的超额收益。 PCA指数增强策略 主成分回归:通过将原始变量线性组合,将行业因子合成为一个“主成分”,在尽量减少变量数量的同时保留数据的主要信息。组合后的行业因子可以有效提升策略的表现。 不同基准下策略效果:在大盘股市场中,策略表现相对受限;而在中小盘股市场中,因子的作用则显著提升了投资收益。 不同的窗口以及组别:基于PCA因子的投资组合会因基准股票池的变化、时间窗口及组别的不同而表现出差异性。因此,并没有绝对最佳的选择,投资者需根据不同的市场环境灵活调整策略,才能获得更优的回报。 差值因子指数增强策略 差值因子:通过计算股票与所属行业及相关基准的相关性差值,捕捉股票相对独立的市场表现。 市值差值因子:使用市值最大或最小的行业计算相关性差值。在不同股票池中,该策略在最大市值的组别表现优异,平均超额收益分别为:沪深300 (6.21%)、中证500(8.11%)、国证1000(7.08%)、国证2000(7.27%)。 动量差值因子:使用涨跌幅最大的行业计算相关性,虽然策略依然能获得稳定的超额收益,但效果不如市值差值因子。 请务必阅读最后一页股票评级说明和免责声明1 风险提示:报告内容根据公开数据整理得出,结论基于历史价格信息和统计规律,但二级市场受各种即时性政策以及宏观经济影响易出现统计规律之外的走势,所以相关结论无法代表市场未来走势;模型存在失效风险,由于模型构建、参数估计、假设条件等方面存在的不确定性或错误,可能导致模型预测结果与实际情况产生显著偏离;报告阅读者需审慎参考报告结论。 目录 1.研究背景:4 1.1传统的多因子模型下的行业因子4 1.2传统的多因子模型效果5 1.3行业因子与股票收益率的相关性8 2.基于PCA行业因子的指数增强策略:9 2.1主成分分析10 2.2PCA模型在不同股票池中的表现12 2.3PCA模型在不同组别下的表现14 2.4PCA模型在不同时间窗口下的表现15 3.基于差值行业因子的指数增强策略:18 3.1市值差值因子18 3.2行业个数对市值差值因子的影响20 3.3动量差值因子22 4.附录22 5.风险总结24 图表目录 图1:传统多因子模型策略绝对和相对收益情况6 图2:传统多因子模型在沪深300中的表现7 图3:传统多因子模型在国证2000中的表现8 图4:行业因子与股票相关性分布图9 图5:PCA因子与市值因子相关性统计图10 图6:PCA策略与原始策略对比图11 图7:PCA策略与沪深300对比图12 图8:PCA策略与中证500对比图13 图9:PCA策略与国证1000对比图13 图10:PCA策略与国证2000对比图14 图11:PCA策略在不同组别中的效果15 图12:PCA策略在最大组别中不同时间窗口的表现16 图13:PCA策略在第二大组别中不同时间窗口的表现17 图14:PCA策略在第三大组中不同时间窗口的表现17 图15:PCA策略在第四大组中不同时间窗口的表现17 图16:PCA策略在第五大组中不同时间窗口的表现18 图17:市值差值因子在中证500的表现19 图18:市值最大的行业差值因子的表现19 图19:市值最小的行业差值因子的表现20 图20:多行业在沪深300中的表现21 图21:多行业在中证500中的表现21 图22:多行业在国证1000中的表现21 图23:多行业在国证2000中的表现21 图24:动量差值因子的表现22 图25:PCA策略股票组合23 图26:市值差值策略股票组合23 图27:动量差值策略股票组合24 表1:PCA策略年化收益12 1.研究背景: 1.1传统的多因子模型下的行业因子 传统的多因子模型,旨在通过多个因子(如价值、动量、规模等)来解释和预测资产的收益表现。此类方法的核心在于识别能够影响资产价格的关键因素,并将其整合到一个框架中,以构建更具表现力的投资组合。其中,行业因素通常是通过预定义的行业分类和相关数据来处理的。这种处理方法基于这样一种假设:不同行业有着各自独特的市场动态,而行业的整体表现会影响该行业内个股的收益。 传统的行业因子处理方法依赖于标准化的行业分类体系。首先,资产会被归类到特定的行业或子行业中,该行业的行业因子往往会通过计算该行业所有股票的平均收益或市值加权平均收益计算得出。例如,如果某只股票属于信息技术行业,那么信息技术行业的整体收益变化将被纳入模型中,以解释该股票的表现。接着,研究人员会通过行业虚拟变量来捕捉行业影响,一般的做法为赋予属于该行业的资产一个“1”值,而其他行业的资产为“0”。这种方式可以单独评估每个行业对资产收益的影响,并将行业效应纳入模型。 传统方法处理行业因子有几个显著的优势: 简单且直观:通过行业分类或虚拟变量,研究人员可以轻松地将行业效应纳入模型。同时,标准化的行业分类体系通常是公开的,这使得数据容易获取并被大众所接受。因此,这种方法简单直观,便于解释行业因子对资产收益的贡献。 适用性广:这种方法可以广泛应用于不同类型的资产和市场。无论是股票市场、债券市场还是其他资产类别,传统行业因子的处理方法都能有效地捕捉行业对资产价格的影响,并一定程度上为回归方程提供解释力度。 便于历史回测:由于行业分类体系和虚拟变量的处理方法相对固定,研究人员在进行历史回测时更加容易评估行业因子在过去的表现,从而验证模型的有效性。 传统方法在处理行业因子的局限性也十分明显: 忽视行业内的差异性:传统方法通常假设行业内的所有公司都受到相同的市场因素影响,但实际上,同一个行业内部的公司也存在显著差异。例如,在信息技术行业内,成熟的科技公司和初创公司可能会面临完全不同的市场挑战和机遇。这种差异性在传统的行业因子处理中往往被忽略,导致模型对行业内个股的表现解释力不足。 行业分类的局限性:行业分类方法依赖于固定的分类体系,而这种体系有时难以反映新兴行业或跨行业的企业。随着技术的发展,近年来不仅出现了许多涉足多个领域的跨行业的公司,而且也有许多新型行业在不断涌现。传统的行业分类体系难以准确反映跨行业公司的复杂性,也无法在行业出现的第一时间就给出精确定位,从而限制了模型的精确度。 未考虑行业间的相关性:传统方法通常将行业视为独立的因素,未能充分考虑行业之间可能存在的相关性。例如,能源行业和工业行业可能存在显著的相关性,因为它们的表现往往受到相似的宏观经济因素影响,忽视这种相关性就可能导致模型低估某些风险或错过某些机会。 1.2传统的多因子模型效果 由于上述的种种问题,基于传统的多因子模型所构建的投资组合的效果并不稳定。为了更好的阐释这个问题,我们使用了2016年年初到2024年8月底的数据构建了传统的多因子模型,以月度为换仓周期,并且根据模型构建基于基准成分股的投资组合。从图中可以看到,当基准为中证500时,策略的收益在大部分时间内与基准指数走势一致,策略换手率约为9.3。但是,策略在整个时期的表现不佳,收益情况大部分时间低于基准,而相对收益的走势更加凸显了这一点。只有在市场情况较差的时候,策略相对于基准表现出明显的相对优势。这表明传统多因子模型仅在某些市场条件下能够提供一定的防御性收益,帮助投资者抵御市场下行风险。 图1:传统多因子模型策略绝对和相对收益情况 资料来源:同花顺,山西证券研究所 除此之外,传统多因子模型在处理不同市值股票时效果存在显著差异。在大盘股市场中,策略表现受限;而在中小盘股市场中,策略则能通过因子的作用显著提高投资收益。比如在基准指数为沪深300时,由传统多因子模型构建的投资组合在月度换仓的情况下表现不佳,模型几乎无法在任何行业中获得超额收益,策略在各个行业中的平均换手率约为4.0。这可能是因为沪深300的成分股通常受到市场主流资金的高度关注,因而其价格已经反映了较多的市场信息和预期。因此当股票池集中于大型蓝筹股时,传统多因子模型可能无法有效捕捉这些股票的市场动能或价值特征,导致策略的超额收益能力受限。 图2:传统多因子模型在沪深300中的表现 资料来源:同花顺,山西证券研究所 相反,当基准指数为国证2000且月度换仓时,策略在所有行业中都能够获得超额收益且换手率约为6.0。国证2000指数主要涵盖中小市值股票,这些股票相较于大盘股,可能受到市场关注度较低,同时定价效率也较差。多因子模型可以更好地利用这些股票的波动性和相对较高的市场错配,从而识别出具有潜在投资机会的个股,进而提升投资组合的表现。 图3:传统多因子模型在国证2000中的表现 资料来源:同花顺,山西证券研究所 1.3行业因子与股票收益率的相关性 在对所有股票收益与各行业之间关系的研究中,我们发现90%的数据呈现正态分布。这表明,大多数股票与行业之间的关系是相对对称的,没有明显的极端值或偏离。进一步分析显示,约20%的数据呈现轻微的左偏分布,但这种偏斜程度较小,说明虽然部分股票的收益在行业内表现较为强劲,但整体上没有显著的倾斜。 图4:行业因子与股票相关性分布图 资料来源:同花顺,山西证券研究所 2.基于PCA行业因子的指数增强策略: 在讨论了行业因子在传统多因子模型中的局限性后,我们可以引入一些技术来优化模型的表现。传统的多因子模型通过线性组合各类因子(包括行业因子)来解释和预测股票收益,但这种方法在处理行业异质性和复杂性时存在一定的不足。为了解决这些问题,我们可以采用主成分分析(PCA)以及其他降维技术来优化回归模型。这些方法有助于更好地提取隐藏在数据中的结构特征,并提高对行业间关系的捕捉能力。为了方便测试,在第二部分和第三部分中,我们的模型仅包含以下因子:市值因子,ROE因子以及改进后的行业因子。 2.1主成分分析 主成分分析(PCA)是一种被广泛使用的数据降维技术,其目的是找到或创造出能解释方差且数量最少的主成分。这种方法常被用于简化数据集,通过将原始变量线性组合为少数几个“主成分”的方法在减少变量数量的同时尽可能保留数据的主要信息,且合成后的主成分之间往往也是相互独立。 PCA在多因子模型中的应用主要体现在降维和去噪两个方面。在传统多因子模型中,研究者通常会选择多个因子来解释股票收益的波动,例如市场因子、行业因子、公司特征等。然而,随着所选因子数量的增加,模型的复杂度也随之提高,这可能导致过拟合的问题。此外,不同因子之间可能存在共线性,使得模型难以区分各个因子的独立作用。在这种情况下,PCA可以通过提取数据中的主要成分来减少因子数量,进而简化模型结构,并提高模型的稳健性。 合成后的因子往往与多因子模型中的其他因子相关性不高。以合成后的PCA因子与市值因子的相关性为例,67%的PCA因子和市值因子的相关性在0附近,剩下33%的相关性在0.2附近。这说明合成后的因子提供了其独特的价值。 图5:PCA因子与市值因子相关性统计图 资料来源:同花顺,山西证券研究所 因此,主成分分析(PCA)可以将不同行业的收益整合为一个综合行业因子,全新的行业因子可以更好地反映行业间的共性和相关性,从而提升模型的表现。由于单一行业的收益可能无法全面捕捉市场的整体趋势,我们首先使用PCA对各行业的收益进行降维处理,提取出能够解释最大方差的主成分。然后,再将生成的行业综合因子与个股的收益进行相关性分析;接着,对这些相关系数从大到小进行排序,分别选择不同组别的个股构建投资组合。这种方法不仅能够捕捉行业整体动向,还能通过筛选个股来进一