基金重仓股的量价因子增强策略 证券研究报告/量化投资策略报告2023年10月22日 分析师:李新春 执业证书编号:S0740520080002电话:18019761462 Email:lixc02@zts.com.cn 分析师:汤伟杰 执业证书编号:S0740523050001电话:18217397163 相关报告 《“财经新闻”挖掘与“股票策略”构建——FarmPredict机器学习框架》 固收+基金资产组合探测——机器 学习系列之四 投资要点 量价因子在基金重仓股上的应用是一个不小的挑战,尤其当因子数量较多时,对所用模型更是一种考验。范剑青(2021)提出的FarmPredict模型非常适合处理高维因子的挖掘问题,本文基于该模型在基金重仓股上构建量价因子的增强策略 策略分为两步:结合基金行业仓位探测结果构建基础股票池、用FarmPredict模型给股票池中的股票打分。策略月度换仓,每月选出20只股票,回测结果表明,从2019年至2023年9月,策略年化收益率53.53%,Sharpe为1.78,最大回撤26.62%,相对基准表现优异 2019年以来策略累积收益率如下: 来源:wind,中泰证券研究所 风险提示事件:本报告结论完全基于公开的历史数据进行统计、测算,文中部分数据有一定滞后性,同时存在第三方数据提供不准确风险;模型均基于历史数据得到的统计结论且模型自身具有一定局限性并不能完全准确地刻画现实环境以及预测未来;模型根据历史规律总结,历史规律可能失效;模型结论基于统计工具得到,在极端情形下或存在解释力不足的风险,因此其结果仅做分析参考 请务必阅读正文之后的重要声明部分 内容目录 一、引言.-3- 二、理论基础......................................................................................................-3- 2.1惩罚项...................................................................................................-3- 2.2降维......................................................................................................-5- 三、基础股票池构建...........................................................................................-7- 四、选股模型的构建...........................................................................................-9- 2.1alpha101量价因子................................................................................-9- 2.2FarmPredict框架下的选股模型...........................................................-10- 五、回测结果....................................................................................................-12- 风险提示............................................................................................................-14- 一、引言 一般认为,公募基金对基本面的研究代表了业内的最高水平,因此,如果想要通过基本面因子在基金重仓股的基础上构建组合来获取稳定的超额收益较为困难。而如果从量价因子入手,在2015年WorldQuantLLC量化交易对冲基金公布了《WorldQuantFormulaic101Alphas》研究报告,提出了101个量价因子,但是多年来这些因子的有效性,尤其是在A股市场的有效性一直受到质疑。业界通常的做法是,如同开矿一般不断地挖掘新的量价因子,验证单因子的有效性之后,剔除掉该因子中能被已有的因子解释的部分,再和已有的因子进行复合。这种做法的难点在于,随着因子个数的增加,特征的维度也是不断增加,对处理算法和硬件条件的要求也越来越高。 过往的研究者所构建的因子和收益之间的预测模型,可分为线性模型和非线性模型两大类,大量的研究表明,非线性模型(包括广义线性模型)的预测效果远远好于传统的线性模型。在我们之前的报告《“财经新闻”挖掘与“股票策略”构建——FarmPredict机器学习框架》中,我们介绍了范剑青(2021)提出的FarmPredict框架,并用其处理文本数据挖掘与价格预测问题。这一框架主要基于主成分分析(PCA)以及Lasso回归,其适用场景非常广泛,尤其善于处理上文所提到的高维特征,包括海量的量价因子。本文将尝试使用该框架,先结合我们对公募基金行业仓位探测的结果选出一个大的基金重仓股股票池,然后在该股票池基础上用alpha101量价因子构建增强选股组合。 二、理论基础 2.1惩罚项 首先构造资期望回报的预测模型如下: Et(ri,t1 )g()(z) (1) i,t i1,……,Nt是资产的索引,t1,……,T是时间序列索引,P维度向量zi,t代表 预测变量。简单线性模型要求条件期望g()()可以用原始预测变量和参数向量 的线性函数来近似表示,即: g(zi,t;)zi,t (2) 为了估计参数,这里使用标准最小二乘函数(或称为l2)作为目标函数: 1NT2 L ( NT i1t1 ri,t1 (gz;i,t)) (3) 简单线性模型在存在许多预测变量的情况下很可能会失败。当预测变量的数量P接近观测值的数量T时,线性模型很容易出现过拟合。这在回报预测问题中尤为棘手,因为信噪比极低。避免过度拟合的关键在于减少估计参数的数量,这可以通过在(3)式后加入惩罚项来实现,以提高样本外的稳定性,这将在惩罚成功减少模型对噪音的拟合但保持其对信号的拟合时发生。带惩罚的方法通过 在原始损失函数中添加不同的惩罚项来区分: L;L; (4) ·; 有几种选择用于惩罚函数。我们关注流行的“弹性网络”惩罚,它采用如 下形式: (;,)(1)|| j (5) P 1P2 j12 j j1 弹性网络涉及两个非负的超参数λ和ρ,并包括两个众所周知的特例。ρ=0对应于Lasso回归,使用绝对值或“l1”参数惩罚。Lasso菱形的可行域会将某些协变量的系数设置为零。从这个意义上说,Lasso对规范施加了稀疏性,可以被视为一种变量选择方法。ρ=1对应于岭回归,它使用l2参数惩罚,将所有系数估计值拉近零,但不会在任何地方施加确切的零。从这个意义上说,岭回归是一种收缩方法,有助于防止系数变得过于大。对于ρ的中间值,弹性网络会同时通过收缩和选择降低模型复杂度。 ˆ ˆ 图1:Lasso回归(左图)和岭回归对比示意图 来源:wind,中泰证券研究所 2.2降维 加入惩罚项的线性模型通过强制使大多数回归器的系数接近或等于零,使用收缩和变量选择来管理高维度。当预测变量高度相关时,这可能会得到次优的预测结果。这个问题的一个简单示例是,所有的预测变量都等于预测目标加上iid噪声项。在这种情况下,通过lasso惩罚选择一部分预测变量不如取预测变量的简单平均值,然后将其作为单一预测变量进行单变量回归。 与预测变量的选择相反,预测变量的平均的思想是降维的本质。重构预测变量的线性组合有助于降低噪音,更好地分离预测变量中的信号,并有助于去相关化本来高度相关的预测变量。两种经典的降维技术是主成分回归(PCR)和偏最小二乘(PLS)。 PCR包括两个步骤。在第一步中,主成分分析(PCA)将回归器组合成一组最能保留预测变量之间协方差结构的线性组合。在第二步中,使用主要成分做标准的预测回归。换句话说,PCR通过将低方差成分的系数归零来规范化预测问题。 PCR的一个缺点是,在降维步骤中它未能纳入最终的统计目标——预测回报。PCA将数据压缩成基于预测变量之间的协变关系的成分。这发生在预测步骤之前,而且没有考虑预测变量与未来回报的关联。 相比之下,偏最小二乘通过直接利用预测变量与预测目标的协变关系来执行降维。PLS回归的步骤如下。对于每个预测变量j,通过OLS估计其单变量回报预测系数。这个系数用j表示,反映了回报对于每个预测变量j的“部分”敏感性。 接下来,将所有预测变量平均到一个单一的聚合成分中,权重与j成正比,最强 的单变量预测变量具有最高的权重,最弱的具有最低的权重。通过这种方式,PLS以最终的预测目标为依据进行降维。为了形成多个预测成分,目标和所有预测变量都与先前构建的成分正交化,然后在正交化的数据集上重复上述过程。这一过 程迭代进行,直到得到所需数量的PLS成分。 对于超额收益ri,t1g(zi,t;)i,t1zi,ti,t1,可以写成: RZE (6) 其中R是ri,t1的NT×1维回报率向量,Z是zi,t的NT×P维预测变量,E是 i,t1的NT×1维残差向量。 PCR和PLS采用相同的一般方法来降低维度。它们都将预测变量的集合从维度P缩减到更小数量的K个预测变量的线性组合。它们的预测模型都可以写 成: R(ZΩK)KE (7) ΩK[1,2,……,k]是一个P×K维的矩阵,每个j是用于创建第j个预测成分的线性组合权重集,因此ZΩK是原始预测变量集的降维版本。同样,预测系数K现在是一个K×1的向量,而不再是P×1。 PCR递归选择组合权重: wjargmaxVar(Zw),s.t.ww1,Cov(Zw,Zwl)0,l1,2,,j1 w (8) 直观地说,PCR找到Z的K个线性组合,这些组合最忠实地模拟完整的预测变量集。该目标表明,选择成分完全不是基于预测目标的。相反,PCR的重点是寻找保留预测变量集内最大可能的共同变化的成分。公式(8)的众所周知的解 决方法通过对Z进行奇异值分解来计算ΩK,因此从计算角度来看,PCR算法非常高效。 与PCR不同,PLS的目标是寻求Z的K个线性组合,这些组合与预测目标具有 最大的预测关联。用于构建第j个PLS成分的权重求解如下: jl wargmaxCov2(R,Zw),s.t.ww1,Cov(Zw,Zw)0,forl1,2,,j1 w (9) 这一目标凸显了PCR和PLS之间的主要区别。PLS可以牺牲ZΩK对Z的准确逼近程度,以找到对回报的预测能力更强的组分。公式(9)的问题可以通过许多类似的程序高效地解决,其中最突出的是deJong(1993)的SIMPLS算法。 最后,给定ΩK的解,PCR和PLS都通过在ZΩK上对R进行OLS回归来估计 K。对于这两种模型,K是一个超参数,可以通过验证样本自适应确定。 三、基础股票池构建 我们在报告《固收+基金资产组合探测——机器学习系列之四》中介绍了用Lasso回归对固收+基金大类资产仓位进行探测的方法,即用数个大类资产指数对基金净值进行拟合,该方法同样可以应用在权益基金的行业仓位探测上,只需要将大类资产指数换为行业指数即可。 这里我们使用的是修改后的Lasso模型: min|ywTA|2|ww|(10) 12101 其中w0代表基金初始仓位,w