中国股票风险因子模型白皮书 中国股票风险因子模型 清华大学全球证券研究院 摘要: 近年来,基于因子体系的建模方法在宏观经济及多种资产大类(股票、信用债、大宗商品、外汇、利率以及衍生品)受到了各国学者的重视。该领域的研究也取得了长足的进步和丰厚的成果,因子体系逐渐成为当前头部金融机构精细化管理投资流程,风险控制以及投后归因的主流工具。为助力国内金融基础设施建设,我们对我国的金融市场进行了实证研究,改良了传统因子体系构建方法。本文旨在探索中国股票风险因子模型体系的构建,深度结合中国金融市场环境实际,逐步校验并调整因子模型的假设。相比于传统的股票市场因子体系,本文构建的中国股票风险因子模型摈弃了市值加权的回归分析方法,使用更为稳健的换手加权EM算法估测,并以此为基础,在申万行业因子之外臻选出12个具有强解释力且直观稳定的风格因子。我们使用2012-2022年中国A股上市公司股票的实际数据,使用模型进行实际风险控制校验,该因子体系相比于传统因子体系在控制波动率以及尾部风险均有显著提升,有助于制定更精准的风险控制与投资决策。 关键词:因子模型、EM算法、风险 1.因子的基本概念 因子(Factor)的概念源于CAPM理论,该理论描述了在无交易成本、投资者理性决策的假设下,资产的预期超额收益和市场预期超额收益线性相关的关系。CAPM模型是最简单的因子模型,其中市场超额收益对应的市场组合称之为“市场因子”。以此为契机,S.A.Ross(1976)提出了著名的套利定价理论(ArbitragePricingTheory,APT),进一步扩展定义了包含多个因子的市场一般定价模型。 为了进一步介绍因子,本文先介绍更宽泛的概念: 特征(Characteristics):任何个股级别的数据都是个股的特征。信号(Signal):能够对收益有预测能力的特征,称之为信号。因子(Factor):经过进一步优选的,满足特定要求的信号,称之 为因子。 因子暴露(FactorExposure/FactorLoading):它描述个股超额收益对因子组合超额收益的反应。通常在模型中记作β。在一个统一的因子模型中,因子暴露与因子之间,存在一一对应的关系。 因子模拟投资组合(Factor-MimickingPortfolio):构建一个动态调仓的投资组合,使这个投资组合的收益模仿/跟随目标因子。 在主流的因子分析框架的假设下,因子有两个重要性质:1.因子是个股联动的重要因素;2.个股的期望收益及当期收益,完全由因子的预期收益及当期收益贡献。1 具体来说,APT认为: ��[��,�+1]=��·��[��,�+1](1.1) 其中,��表示期望算子,��,�+1代表因子收益(K×1),��,�+1代表个股收益(N×1),��代表因子暴露(N×K)。 和CAPM类似,多因子模型假设资产的预期收益率由公式(1.1) 右侧的一系列因子的预期收益率和资产在这些因子上的暴露决定。然而,金融市场本身非常复杂,其中包含大量的仅依靠当前已经列出的因子所 1基于APT框架(S.A.Ross,1976),个股收益和因子之间线性相关,任何没有共同因子暴露的个股的收益都会相互独立。值得注意的是,因子未必有很高的预期收益,甚至预期收益未必是正的。 无法捕捉到的随机变动,这种问题当然可以通过寻找更多的因子来捕捉更多的变动性,但这种方法仍然不可能完全捕捉到金融市场的所有变动性,金融市场上的完全无理由的噪声是普遍存在的,因此实际市场模型,可以通过引入一个定价误差(pricingerror)项来描述。因此,(1.1)式通常也可被具体写作: ��,�+1=��,�+1+��·��,�+1+��.�+1(1.2) 其中��,�+1为资产的实际预期收益率和多因子模型隐含的预期收益 率之间的定价误差,��,�+1代表个股特异性收益(N×1)。如果��,�+1显 著偏离零,则代表了某个可以通过套利而获得超额收益的机会;这也同时说明由于某些原因,市场对该资产出现错误定价(mispricing),从而导致其实际预期收益率和多因子模型下的预期收益率出现了偏离。2 根据风险和收益,我们可以将因子粗略地分为两类: (1)风险因子:因子风险高,收益低。 (2)Alpha因子:因子风险低,收益高。 指数化投资重点强调投资组合对于不同风险因子的敏感程度,而α水平一般为主动型投资组合所重点考量。 2.风险模型的意义 金融业务的关键难点在于风险决策。如何系统行的度量与处置风险,进而做出优秀的风险决策,是金融行业面临的核心挑战。在科学的风险建模方法中,因子法是当前国际金融市场上普遍采用的系统性解决方案,因子法建模,具有清晰明了、简洁灵活、容易扩展的特征,在国内、国际金融市场的研究和实践中都有着广泛的应用。 基于因子的投资分析与建模框架,被学术界与业界统一采用。经过几十年的努力,学术界提交了丰富的金融理论模型和计量经济统计工具来计算资产的价值,并发现了广泛接受和接受的价值、盈利能力、动量和低波动性要素。自股权投资基金出现至今,这些学术成果一直为业界 2这个系统里αt并不是必要的,因为αt可以被视为是一个风险极低收益极高的特殊因子ft0 所应用。事实上,因子投资的兴起得益于资产定价的学术研究。同时业界的因子投资活动也为已有理论的反复检验和新理论的提出提供了充足的数据,促使学术界不断提出新的研究成果。 这个过程中,因子模型本身,也在不断改进和创新。多因子模型作为替代CAPM的主流替代方法之一,已逐渐发展成为股权投资的有效手段。当前国际金融市场上大量的资产管理机构都在使用风险因子模型来管理他们资产组合,同时也培育了以MSCI3,Axioma4,Northfield5,SunGard6等为代表的第三方通用风险因子模型体系的商业模式。 到目前为止,多因子模型一直应用于各种类型的资产投资中,特别是在股票、债券、商品期货和加密货币领域中有所体现。最新趋势从因子的角度分析了各种类型资产收入的潜在驱动因素和逻辑,并将要素用于类别之间的资产构成。对于因子投资主体来说,了解现有方法有助于更好地适应和接受因子投资的未来发展和变化。 3.现有风险因子模型介绍 与解释并预测资产收益的收益率模型不同,在因子投资中,风险模型的主要目标是准确预测资产收益的协方差矩阵,为风险控制提供依据。在风险模型中,因子的个数往往远小于资产的个数,因此能达到降维的效果。根据风险模型,我们可以得到资产协方差矩阵与因子协方差矩阵的关系: �=����'+��(3.1) 其中,�为资产的协方差矩阵(N阶),��为因子协方差矩阵(N 3MSCI公司,一家总部位于美国纽约的知名金融公司,提供多样化的市场投资指数服务以及专业化的多资产组合分析工具是其重要的服务模式。2004年,MSCI公司收购了Barra公司并成立了MSCIBarra,专业提供资产因子模型体系服务,随后2010年,MSCI公司进一步收购了RiskMetrics公司,进一步丰富了其在多资产的收益、风险建模方面的专业化工具体系。 4Axioma公司总部同样位于纽约,1998年成立,是一家专业从事投资组合优化决策的软件服务商,投资组合经理们使用相关工具由于组合生成、组合监控、虚拟持仓模拟与风险评估,管理交易成本和持仓再平衡,作为其分析、模拟与决策的基础,Axioma构建了相当全面的风险因子体系。 5Northfield公司成立于1985年,专业致力于面向资产管理的风险预测业务,其对于短期、中期、长期的风险评估,引入不同的数据源,采用不同的风险建模方式,从而形成一套覆盖相对完整的风险评估体系。 6SunGard公司,总部位于美国宾夕法尼亚,最初是一家从事数据服务的软件公司,1997年收购了交易与风险管理软件设计商InfinityFinancialTechnology,进军风险管理与分析业务,并通过后续的一系列收购,构建起强大的数据服务、风险分析、资产管理的能力。 阶),��为随机误差矩阵(N阶),由于资产收益率中的随机误差相互独立,��为对角矩阵。�=�1,�2,…,��,为因子暴露矩阵(N×K)。在海外,有很多应用于计算资产协方差矩阵并进行风险控制的多因子风险模型。第三节中,我们从市场常用模型中选取最新一版刻画中国A股股市的CNE6(CNLT)模型作为例子,详细介绍风险模型的搭建和求解方法,意在使读者更好地理解风险模型,体会风险模型计算协方差矩阵的优点及其对风险控制的重要意义。 3.1市场常用模型估计方法 基于求解股票协方差矩阵的目标,根据式(3.1),我们需要估计三个参数:�、��和��。估计过程主要分为两步:第一步,计算因子暴露矩阵�。第二步,通过回归得到因子收益率序列�。第三步,在第二步的基础上计算��和��。 3.1.1计算因子暴露矩阵� 首先,我们回顾经典的Fama-MacBeth截面回归方法: 1.时序回归(N次):在时刻t,对每个资产i的历史时序数据,分别进行时序回归,估计资产i在所有因子上的暴露�^�。 2.截面回归(T次):用�^�作为自变量,资产超额收益率���,�+1作为因变量,对每个时刻t进行截面回归,得到各因子收益率时序�^��,�+1。进一步即可计算��和��。 对于因子暴露矩阵�的求解,传统做法是通过N个时间序列回归, 得到每个资产i在全部因子上的暴露�^�,这也是Fama-MacBeth两步回归中第一步所采用的做法。然而,�^�作为生成的回归变量本身就带有一定误差,将其作为第二步回归的自变量,会产生计量经济学中的变量误 差(errorsinvariables,EIV)问题。 因此,为了规避上述问题,对于风格因子,市场常用多因子模型直 接使用公司特征作为风格因子暴露的原始值(如,直接取用EP值原始数据),并对之进行标准化处理。这样,对每一个时间点t,我们可以直接得到因子暴露矩阵�: 1��1⋯�����1⋯��� 1111 1��1⋯�����1⋯��� �=2222 (3.2) ⋮⋮⋱⋮⋮⋱⋮ 1��1⋯�����1⋯��� ���� 矩阵中,�的下标1~N代表N个资产分别对应的因子暴露,上标指 代不同因子。各资产对国家因子的暴露均为1。��1~���对应P个行业因 �� 子暴露,均为哑变量,每个资产i有且仅有一个���=1。��1~���对应Q ��� 个风格因子暴露,由公司特征原始值经过标准化得到。具体而言,假设市场组合在任何风格因子上都应该是中性的,那么市场组合对各因子的暴露为零。因此,先对各因子暴露减去市值加权平均值,使之满足: � � ∑�����=0,�=1,…,�(3.3) �=1 ��表示资产i的市值权重。再对各风格因子暴露分别除以其标准差,风格因子暴露的标准化就完成了。 3.1.2计算因子收益率序列� 根据MencheroandLee(2015)的方法,我们进行多次横截面回归,得出因子收益率序列。截面回归模型如下: ��,�+1=����,�+1+��,�+1(3.4) 其中,��为t时刻下的因子暴露矩阵(N×K)7: 1��1⋯�����1⋯��� 1111 1��1⋯�����1⋯��� ��=2222 (3.5) ⋮⋮⋱⋮⋮⋱⋮ 1��1⋯�����1⋯��� ���� ��,�+1为t到t+1时段N支股票(相对无风险收益率)的超额收益(N×1); 73.1.1给�了β矩阵的具体计算方法,此处不再赘述。 ��,�+1为t到t+1时段各因子收益率(K×1);��,�+1为t到t+1时段N支股票的特质性收益率(N×1)。为了简便,下文省略时间下标t与t+1。 由于国家因子暴露和P个行业的因子暴露之间存在共线性,造成(3.4) 解不唯一,因此对行业因子给定限制: ��1��1+��2��2+⋯+������=0(3.6) 其中,���为t到t+1时段行业因子收益率,���为t时刻��行业内所有股票按市值加权算出的权重之和。根据约束条件(3.6)可以构造约束矩阵C(Ruu