您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国泰君安证券]:权益配置因子研究系列01:基于PEAD效应的超预期因子选股效果如何 - 发现报告

权益配置因子研究系列01:基于PEAD效应的超预期因子选股效果如何

2022-05-31张雪杰、刘凯至、余齐文、廖静池国泰君安证券键***
权益配置因子研究系列01:基于PEAD效应的超预期因子选股效果如何

超预期因子。参考国内外PEAD学术文献和业内投资经验,构建6种超预期因子,分别为盈余公告前后异常收益、公告前后交易量变动、标准化预期外盈利SUE、SUE衍生因子、过去N日券商/报告上下调比例、过去N日盈利/营收预测调整。 单因子测试。综合考察组合优化超额收益、IC、分组测试、多空收益等指标,沪深300股票池内,筛选出标准化预期外单季度营业利润、标准化预期外扣非ROE(TTM)、过去90日报告上调-下调比例、JUMP跳空等16个有效因子,组合优化的年化超额普遍在6-9%。中证500股票池内,筛选出标准化预期外单季度归母净利润、标准化预期外单季度扣非ROE、过去90日报告上调比例、过去60天盈利调整、跳空等17个有效因子,组合优化的年化超额普遍在8-12%。全市场股票池,筛选出标准化预期外单季度归母净利润、标准化预期外单季度归母ROA、过去90日报告上调比例、过去60天营收调整等17个有效因子,组合优化的年化超额普遍在12-16%。 超预期复合因子表现。沪深300股票池内,超预期复合因子组合优化的年化超额收益9.51%,超额最大回撤-10.87%,信息比率2.03,周度双边换手率18.69%。2022年以来超额收益2.77%,超额最大回撤-1.70%。中证500股票池内,超预期复合因子组合优化的年化超额收益15.13%,超额最大回撤-8.33%,信息比率3.07,周度双边换手率14.02%。2022年以来超额收益6.98%,超额最大回撤-0.86%。全市场股票池内,超预期复合因子组合优化的年化超额收益21.85%,超额最大回撤-10.17%,信息比率3.23,周度双边换手率17.34%。2022年以来超额收益5.14%,最大回撤-2.59%。 风险提示:量化模型基于历史数据构建,而历史规律存在失效风险。 我们国泰君安量化配置团队的行业轮动策略报告《如何基于PEAD超预期因子构建行业轮动策略——行业配置研究系列02 _20220426》发布后,很多投资者关心这些超预期因子在选股上的效果如何。本报告主要展示基于PEAD效应的超预期因子在A股不同股票池的因子测试结果,供感兴趣的投资者参考。本文首先介绍一般的多因子模型框架。然后,对所有超预期因子,进行单因子测试,详细展示超预期因子在不同股票池(沪深300成分股、中证500成分股、全市场)中的选股效果表现。 最后,筛选出效果较好的因子,以等权加权合成复合因子为例,展示超预期复合因子三种股票池的选股效果,供投资者参考。 1.多因子模型介绍 多因子模型(Multiple-Factor Model, MFM)属于国内外主流量化选股模型之一。使用多个因子预测股票未来收益,筛选预期收益较好的股票,以期战胜基准指数。学术研究上,这类模型属于资产定价理论,最早起源于CAPM资产定价理论,1970年罗斯提出APT多因素模型,该模型认为股票未来的收益可以用若干因素来解释: 𝑟= 𝑓+ 𝑥𝑓+ 𝑥𝑓+. . . 𝑥𝑓 𝑛 𝑛11 𝑛22 𝑛𝑘𝑘 但是并没有指出哪些具体的因素。实证研究方面,1992年Fama和French提出三因素模型,使用市场、市值、估值三个因子作为自变量解释股票未来收益,效果不错。 (𝑅 ) + 𝛽 𝑅− 𝑅= 𝛼 + 𝛽 − 𝑅 𝑆𝑀𝐵 + 𝛽𝐻𝑀𝐿 + 𝜀 𝑖 𝑓 𝑖 𝑓 𝑖 Fama-French三因子模型论文发表后,其他学者提出更多的市场异象,比如盈利效应、投资效应等。这表明FF三因子模型的框架体系对这些异象解释能力不足,需要引入新的定价因子。2015年Fama和French从股利贴现模型出发,推导出与股票收益相关的因素,加入盈利和投资因子,提出五因子模型,发现模型的解释能力提升,模型表示形式如下:𝑅− 𝑅= 𝛼 + 𝛽− 𝑅𝑆𝑀𝐵 + 𝛽𝐻𝑀𝐿 + 𝜀 (𝑅 ) + 𝛽 𝑖 𝑓 𝑚 𝑓 𝑖 其中,RMW为盈利因子收益率、CMA为投资因子收益率。随后,Fama和French使用五因子模型分析了多种常见的市场异象,也研究了五因子模型在国际其他股票市场的效果。 在目前实际投资研究过程中,多因子模型使用估值、盈利、成长、公司治理、价量(反转、流动性、波动性等)、分析师预测、超预期等几大类因子进行选股,构建一篮子股票的投资组合。多因子选股模型的体系广义上讲,一般由有三部分组成:收益预测模型、风险模型、交易成本模型。目前国内研究主要集中在前两类模型,其中收益预测模型主要是通过多因子打分选股、量化模型预测收益率选股,一般直接称为多因子选股模型。多因子模型选股基础性工作是各类单因子和大类因子选股效果的测试和跟踪。多因子选股模型体系见下图。 图1 下面介绍本报告用到多因子模型中单因子测试、多因子加权两部分内容。 1.1.单因子测试 对各类因子进行单个因子选股效果测试是多因子选股的基础工作。下面介绍因子的数据处理方法、单因子选股测试的一般步骤。 1.1.1.股票池与比较基准 为了测试单个因子的选股效果,首先需要确定比较基准和股票池。不同股票池中,股票的风格分布特征会有所不同,因子的选股效果会略有区别。比如,沪深300以大盘蓝筹为主,行业也多是分布在金融、周期性行业,选股逻辑与小盘股的投资逻辑明显不同,使用的因子也会不一样。 对于不同的股票池,都有对应的基准指数。 我们为了构建对应不同基准的选股策略,会对不同股票池进行单因子选股效果的测算,找出在特定股票池中选股效果较好的因子。实际研究中使用沪深300成分股、中证500成分股、全体A股等作为股票池,对应基准指数一般为沪深300指数、中证500指数、中证500指数。 初始股票池:全体A股(沪深300成分股、中证500成分股等)。为了使测试结果更符合实际投资过程,对无法交易的股票进行剔除,主要有以下几种情形:(1)剔除选股当日的ST股票;(2)剔除上市不满半年的股票;(3)剔除选股日由于涨停、停牌等原因而无法买入的股票。 1.1.2.数据处理 在确定股票池S(𝑠、𝑠、𝑠、. . . 𝑠)之后,对于N只股票,K类因子,某类因子有f个子因子。按照因子公式计算每只股票在因子f上的取值,一般称为因子暴露(Factor Exposure)。对于因子原始值,一般需要进行去极值、标准化、缺失值填充、市值行业中性化等数据处理操作。 𝑁 (1)去极值 个别股票可能存在因子数据错误、因子值过大过小等极端情况,为了保证数据质量,需要进行去极值操作。因子去极值有固定比例缩尾、3σ去极值法、中位数去极值MAD法等,我们主要使用中位数去极值法。 中位数去极值(Median Absolute Deviation绝对中位数)法是针对3倍标准差法的改进,原因在于国内大部分股票因子值的分布并不服从正态分布,因此国内大多数研究采用此方法处理极值。计算方法如下:对于某一期所有股票因子值,首先计算中位数𝑚𝑒𝑑,然后计算𝑀𝐴𝐷、𝑀𝐴𝐷: 𝑒 ) 𝑚𝑒𝑑 = 𝑚𝑒𝑑𝑖𝑎𝑛(𝑥 𝑖 𝑀𝐴𝐷 = 𝑚𝑒𝑑𝑖𝑎𝑛(|𝑥− 𝑚𝑒𝑑|)𝑀𝐴𝐷= 1.483 ∗ 𝑀𝐴𝐷 𝑖 𝑒 通常把偏离中位数三倍𝑀𝐴𝐷以上的数据作为异常值。这种处理不受极端异常值的影响,结果更加稳健。 𝑒 (2)标准化 由于不同因子在量纲上存在差别,因此在因子加权、多元回归中需要对单个因子在横截面上进行标准化,从而让不同因子的暴露度之间具有可比性。一般的标准化方法,将当期去极值后的因子值序列减去全部股票的均值、再除以其标准差,得到一个新的近似服从N(0,1)分布的序列: 𝑟𝑎𝑤𝑖 𝑥𝑥= − 𝜇𝜎 𝑠𝑖 (3)缺失值处理 对于个别股票的因子值缺失的情况,需要使用数据替代算法处理。由于不同因子可能在不同个股上存在缺失,如果不做处理则每个因子选股的股票池并不完全相同,不同因子之间选股效果的可比性会受到影响。 单因子选股测试时,对于因子缺失的股票,可以考虑直接剔除,也可以使用替代算法替代。大类复合因子选股时,可以借鉴Barra模型,当大类因子中只有部分因子缺失时,利用其余未缺失的因子指标来合成大类因子;当某支股票大类因子中子因子全部缺失时,运用数据替换算法来替代。具体有全市场均值替代、行业均值替代、回归方程估计多种方式。 我们在本报告使用行业中值替代,当某只股票某个因子缺失时,考虑使用该行业的均值或中值替代。 (4)市值行业中性化处理 对于选股而言,股票市值、行业差异较大,原始因子的选股效果受到市值、行业因素的影响。例如,不同行业、不同市值股票之际估值差别很大;以市盈率因子为例,按照分组法,低市盈率的一组主要是大市值的股票,行业多属于银行、周期性行业,市值、行业因素的直接影响低PE分组的股票组合收益。 目前使用最多的做法是对因子进行市值行业中性化处理。具体做法是:将每个股票标准化后的因子作为因变量,对对数市值和中信一级行业虚拟变量进行横截面回归,将回归后的残差作为每个股票因子值。一般认为,在全市场股票池中经过中性化处理后的因子,排除了市值和行业的影响,更好地反映因子的投资逻辑和选股效果。例如,使用市盈率因子分组,做了中性化处理之后,每组在各行业、市值区间上分布比较均匀。 在实际使用上,除市值因子以外,其他因子均进行中性化处理。 𝐼 ) + ∑ 𝛽 𝐹𝑎𝑐𝑡𝑜𝑟= 𝛽 𝑙𝑛(𝑀𝑘𝑡𝑉𝑎𝑙 𝐼𝑛𝑑𝑢𝑠𝑡𝑟𝑦+ 𝜀 𝑛 𝑚𝑘𝑡 𝑖 𝑖 𝑛𝑖 𝑛 𝑖=1 ) 𝐹𝑎𝑐𝑡𝑜𝑟是第T期股票n的因子值,𝑙𝑛(𝑀𝑘𝑡𝑉𝑎𝑙是第T期对数总市值因子的值,𝐼𝑛𝑑𝑢𝑠𝑡𝑟𝑦是第T期第i个中信一级行业因子哑变量(属于该行业为1,否则为0)。𝜀是回归残差。我们以上述回归方程的残差项𝜀作为原因子在市值行业中性化后的代理变量。 𝑛 𝑖 𝑛𝑖 𝑛 𝑛 1.1.3.因子测试方法 我们通过因子IC测试、分组回测、单因子组合优化等多种方式来考察因子收益预测的有效性与稳定性。 (1)因子IC测试 我们计算T期因子值与T+1期股票收益率的Pearson相关系数(RawIC),同时计算因子T期因子值排序与T+1期股票收益率的Spearman相关系数(RankIC)。因子的IC值是指第T期的因子值(因子中性化处理后残差)x⃗与T+1期的股票收益r的相关系数——Pearson相关系数,公式表示为: t t+1 𝐼𝐶= 𝑐𝑜𝑟𝑟(𝑥, 𝑟 ) 𝑡 𝑡𝑡+1 此外,可以计算秩相关系数——Spearman相关系数,使用两个变量的位次计算,是与因子分布无关的,公式表示为: ),𝑟𝑎𝑛𝑘(𝑟 )) 𝐼𝐶 = 𝑐𝑜𝑟𝑟(𝑟𝑎𝑛𝑘(𝑥 𝑟𝑎𝑛𝑘,𝑡 𝑡 𝑡+1 可以通过以下指标评价因子效果:a) IC值的均值——因子显著性; b)c)d) ICIR比率(IC均值/标准差)——因子有效性; IC序列T值(IC均值*sqrt(样本数-1)/IC标准差)——因子显著性; IC值的胜率(因子值与IC值同向的截面数占比)。 (2)因子分组测试 因子分组测试是根据因子值打分排序分多组测试各组组合累计净值表现。我们本报告采用分10组,周度定期调仓的方法进行测试。因子多空测试是分组测试中第一组与第十组多空强弱表现,多空测试与分组测试可以一并进行。我们可以从多个维度考察分组测试效果: a) 分组测试结果是否具备单调性,即各分组累计净值表现与其排序是否具有一致性,分组测试结果单调性越高越好; b) 分组多空收益表现,即考察第一组和第十组累计净值相对强弱表现及其最