您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[西南证券]:基金研究系列:基于基金特征与机器学习的选基研究 - 发现报告
当前位置:首页/其他报告/报告详情/

基金研究系列:基于基金特征与机器学习的选基研究

2022-11-09郑琳琳、王天业西南证券天***
基金研究系列:基于基金特征与机器学习的选基研究

摘要 目前市场上的基金投资者主要根据基金的收益类指标、风险类指标、绩效评价标准化指标来选择基金,而基金定期披露的基金基本信息,例如基金规模、基金费用率、基金运作时间、基金经理任期等指标鲜有关注。 本文立足于基金定期披露的基本信息,一共构造了16个特征,通过决策树与随机森林,预测基金的未来收益,逐期筛选出优质基金,构建投资组合。 在样本期2005/1/31-2022/8/31,采用双报季调仓策略,模型预测基金收益的IC均值为0.084,IC与均值同向的比例高达94.74%,IR比率(IC均值除以标准差)为0.75,模型预测基金收益具备显著的选基能力。 基于模型预测基金收益构建的投资组合年化收益率25.79%,最大回撤率36.66%,Sharpe比率0.91,月胜率64.60%。各类收益评价指标显著优于普通股票型基金指数、偏股混合型基金指数、沪深300指数。同比普通股票型基金指数,年化超额收益率为9.17%。 通过置换检验分析特征对基金收益预测的重要性。结果表明,16个特征对模型的预测结果均有显著影响,线性与非线性特征均与基金未来收益息息相关。 在模型中剔除线性相关性显著的特征后,尽管模型性能有所下降,但依旧具备显著的选基能力。线性相关性较低的基金特征与基金未来的收益依旧密切相关,通过决策树与随机森林,线性相关性较低的基金特征依旧可以有效选基。 在模型中引入常用于量化选基的线性特征后,模型选基性能进一步提升。模型预测基金收益IC均值提升至0.11;策略多头组合年化收益率30.47%,最大回撤率44.80%,Sharpe比率1.01,月胜率60.18%。相较于普通股票型基金指数,年化超额收益率为13.85%。 风险提示:本研究基于2005/1/31-2022/8/31中国基金市场历史数据,模型的历史表现不代表未来表现。若未来市场环境发生较大变化,模型的实际表现可能与本文的结论有所差异。 研究导读 目前市场上的基金投资者主要根据基金的收益类指标、风险类指标、绩效评价标准化指标来选择基金,而基金定期披露的基金基本信息,例如基金规模、基金费用率、基金运作时间、基金经理任期等指标鲜有关注。其原因主要是因为以上基金基本信息同基金未来收益的关系不够直观,线性相关性较弱,简单运用以上指标难以预测基金的未来收益。 然而线性相关性较弱并不意味着基金基本信息与基金未来收益无关,二者可能存在非线性的相关关系。考虑到非线性相关性难以求解,我们将使用决策树挖掘基金基本信息与基金未来收益的相关关系。在此基础上,为了提高预测精度,避免过拟合,我们将通过随机森林集成决策树的预测结果。 在本文的第一部分,我们将使用基金定期披露的基本信息,通过决策树与随机森林算法,预测基金的未来收益,逐期筛选出优质基金,构建投资组合。通过对比组合与基准收益,探讨通过基金基本信息能否有效选基。 在本文的第二部分,在基金基本特征的基础上,我们将在模型中加入常用于量化选基、线性相关性较强的特征,以期进一步提升模型的选基性能。 1标签及特征构建 在标签与特征的选择上,我们借鉴了DeMiguel,Gil-Baz o,Nogales与Santos(2021)的思路与方法,共选用16个基金基本特征来预测基金收益。考虑到部分基金基本信息仅在基金中报与基金年报中披露,为充分利用基金特征信息,降低换仓成本,我们采用双报季调仓策略,每年仅在中报与年报披露截止日期后进行调仓。 针对不同披露频率的数据,根据不同频率的调仓策略,需要对数据进行调频。为方便后续调频与说明,以下数据均以月度数据为例。倘若数据仅在季报、中报、年报中披露更新,则根据对应披露截止日期向后填充为月度数据。 1.1标签 由于我们的目标是通过预测基金未来收益,从而筛选优质基金,故我们选用基金未来 一个月的收益率 作为训练的标签。 1.2特征 根据基金定期披露的基本信息,我们一共生成了16个特征用来预测基金的未来收益,其中个别特征的计算方法需要特别说明。 1.2.1基金资金流入率 基金在 月的基金净现金流 计算方法如下: 其中, 为基金当月净资产, 为基金当月净值增长率。该指标主要用来衡量在 剔除基金持有证券市场价值变动的情况下,基金资金流入的比率。 1.2.2超额收益α 我们将基金在 月的超额收益 定义为FamaFrench 5因子模型(Fama&French, 2015)超额收益: 其中, 代表无风险收益率,代表因子收益率,代表残差。 我们使用36个月滚动窗口,通过OLS估计参数,计算基金的月度超额收益。 1.2.3价值增量 基金在 月的基金净现金流 计算公式如下: 其中, 为上述基金月度超额收益, 代表基金费用率,即总费用除以基金净资 产。价值增量用来衡量在不考虑基金运作费用的情况下,基金在一段时间内取得的超额价值。 1.2.4其它特征 为方便查阅,我们将训练决策树模型所需的全部特征罗列如下,共计16个训练特征。 除基金净值每日更新以外,计算其它特征原始数据均来自基金定期报告。基金费用相关数据仅在中报与年报中详细披露,需根据对应的报告期进行调整;其它数据均在基金季报更新。 表1:训练特征明细 2决策树与随机森林 2.1决策树模型 根据决策树预测输出结果的不同,决策树可以分为分类树和回归树两类。当我们预测的结果为类别时,需要使用分类树;当我们预测的结果为一个实数时,需要使用回归树。 决策树模型的核心逻辑是根据度量标准,从树根开始,选择最优特征逐级分裂,递推生成一颗完整的决策树。以分类树为例,分裂遵循以下两条停止条件:某个分支中的所有样本均属一类;已无可供继续分裂的特征。 业界目前大多会使用以下三种度量指标作为分裂标准: 1)信息增益:对应算法称第3代迭代二叉树(ID3); 2)信息增益比:对应算法称第4.5代分类树(C4.5); 3)基尼系数:对应算法称回归分类树(CART)。 只有回归分类树(CART)既可以解决分类问题又可以解决回归问题,由于我们的目标是通过基金基本特征预测基金未来收益,在此我们着重介绍CART回归树。 CART回归树采用最小化平方残差(Squareof Residual)作为分裂标准。我们可以简单地将一个回归树模型表示为: 其中, 代表任意一组特征取值;整个数据空间被划分成 共 单元,每个单元 上都有一个固定的输出值 图1:CART回归树 在此基础上,给定特征取值,模型预测输出值与真实值的总误差为: 为了最小化预测误差,需要在每个单元 上寻找合适的 ,易知当 取对应单元上 所有真实值的平均值时,预测误差最小,即 为了构造一棵完整的回归树,我们还需要明白如何划分数据空间。我们任取特征作为 切分变量,特征的取值作为切分点,由此我们将得到两个区域: 给定和,我们要寻找两个区域的代表值和另各自区间上的平方差最小: 我们知道, 取各自区间上真实值的平均值就可以最小化预测误差,即 那么实际上,只要给定特征,我们就可以遍历特征所有的切分点,计算每个切分点 对应的最小预测误差从而找到最优切分点;在此基础上,我们可以遍历所有的特征,计算每个特征最优切分点下的最小预测误差,从而找到最优切分特征。这样我们就可以得到最优切 分特征与最优切分点及其对应的最优切分。 重复以上步骤直至节点中的样本个数小于预定阈值,或样本集平方误差小于预定阈值,或没有更多特征可供分裂,我们就可以生成一棵完整的CART回归树。 2.2随机森林集成算法 与其它机器学习模型一样,决策树也可能出现欠拟合或过拟合问题。本文中,我们将通过随机森林(RandomForest)集成算法来规避这一问题。 随机森林的核心逻辑是,通过重置抽样的方式随机采样,随机构造多个样本,在每个样本上生成决策树,最终将随机森林中每颗决策树的预测结果通过等权的方式合成,形成最终预测结论。 图2:随机森林集成算法 由于随机采样的过程保证了随机性,随机森林中既有预测能力极强的强树(过拟合),也有预测能力较弱的弱树(欠拟合),当随机森林中的树足够多时,过拟合与欠拟合的预测结果相互抵消,从而保证了最终预测结果的稳定。 为了降低随机树之间的相关性,提高模型的预测性能,我们需要提高随机样本的随机性。 因此在进行重置抽样时,我们既要在样本上随机(行采样),即我们从含有个原始样本的样 本集中以重置抽样的方式自助采样出一个新的含有个样本的样本集;我们也要在特征上随 机(列采样),即在全部的个特征中,每次自助采样只随机选择其中的个特征。 3实证检验 样本期为2005/1/31至2022/8/31,基金池为全部普通股票基金与偏股混合基金。考虑到实际交易因素,我们剔除了C类、B类、O类、H类、R类的基金;与此同时,由于我们需要通过36个月滚动窗口估计基金在FF5因子模型下的超额收益,我们也剔除了运作不满36个月的权益基金。 由于采用双报季调仓策略,每年仅在中报与年报披露截止日期后进行调仓,因此需要对月频数据做变频处理。其中标签使用基金双报披露截止日期之间的累计收益;特征超额收益α通过双报披露截止日期之间的月度数据加总求和变频;基金资金流入率flow与价值增量value added通过双报披露截止日期之间的月度数据求解平均值变频;其它特征均使用双报披露截止日期当月月度数据进行变频。 3.1特征相关性分析 为考察特征与标签之间的线性相关性,我们计算了标签与特征间的相关系数矩阵如下。 从矩阵的左边第一列可以得出,基于FF 5模型计算的基金超额收益、基金净资产、基金运作时间、超额收益的t统计量跟基金未来收益的线性相关性较强,而基金资金流入率、价值增量、资金流入波动率、基金费用率、在任基金经理的平均任期、换手率以及FF 5模型中各因子收益率的t统计量与可决系数与基金未来一期的收益线性相关性较低。 表2:相关系数矩阵 3.2回溯测试 在训练模型前,对标签及全部特征在截面上进行标准化处理,缺失值均以0填充。 每期我们选用过去5年的历史数据,通过重置抽样,每次从16个特征中随机选择9个特征训练CART回归树,构造包含1000棵随机树的随机森林,最终根据当期特征取值,预测基金未来一期的收益。 考虑到需要通过36个月滚动窗口估计FF5模型下基金的超额收益与因子收益率,并且每期我们还需使用过去5年的历史数据训练模型,因此我们首次预测基金未来收益并以此为基础进行调仓的时刻为2013/3/31。 3.2.1预测稳定性 在模型回测的过程中,我们最关注的是模型的泛化能力,即模型在训练样本外的预测能力,我们可以通过包外估计验证模型的泛化能力。 对样本数量为的数据集通过重置抽样进行自助采样,如果采样集的样本数量也为, 那么没有被选到的样本约占 ,当很大时,有以下极限 这意味着,每做一次自助采样,初始训练集中约有63.2%的数据被选作训练数据,剩余36.8%没有被选入的数据就可以作为验证数据。根据验证数据,我们就可以计算模型在样本外的预测误差,从而考察模型的泛化能力。 为了考察模型预测的稳定性,我们绘制了随机森林中随机树的数量同包外预测误差之间的变化示意图(以2022/3/31-2022/8/31为例)。如图所示,伴随着随机树数量的逐步增加,模型包外误差逐步降低至收敛。这意味着,选用1000棵随机树构筑随机森林足以保证模型预测的稳定性。 图3:随机树数量与模型包外预测误差变化示意图 3.2.2分组检验 选用过去五年历史数据进行滚动预测,可以逐期得到模型预测的基金收益率,为了考察模型的选基性能,我们对模型预测的基金收益率进行了分组检验,根据预测收益率的大小,将基金平均分为5组,分别逐期计算组内平均收益,样本期内各组累计净值如下。 图4:分组检验累计净值 如图所示,组1到组5,伴随着模型预测收益率的逐步增大,除组2与组3的累计净值出现交错以外,各组累计净值呈现出显著的单调性,组1与组5多空收益显著,表明模型预测收益对基金未来实际