您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[华安证券]:“学海拾珠”系列之一百六十八:机器学习与基金特征如何选择正Alpha基金? - 发现报告
当前位置:首页/其他报告/报告详情/

“学海拾珠”系列之一百六十八:机器学习与基金特征如何选择正Alpha基金?

2023-11-29严佳炜、钱静闲华安证券记***
“学海拾珠”系列之一百六十八:机器学习与基金特征如何选择正Alpha基金?

金融工程 专题报告 机器学习与基金特征如何选择正Alpha基金? ——“学海拾珠”系列之一百六十八 报告日期:2023-11-29 主要观点: 分析师:严佳炜 执业证书号:S0010520070001邮箱:yanjw@hazq.com 联系人:钱静闲 执业证书号:S0010522090002邮箱:qianjx@hazq.com 相关报告 1.《企业季度投资激增与股票横截面收益——“学海拾珠”系列之一百六十七》 2.《基金波动率来源与基金业绩——“学海拾珠”系列之一百六十六》 3.《均衡配置宏观经济因子:分散效果如何?——“学海拾珠”系列之一百六十�》 4.《MemSum:基于多步情景马尔可夫决策过程的长文档摘要提取——“学海拾珠”系列之一百六十四》 5.《奇异值分解熵对股市的动态预测能力——“学海拾珠”系列之一百六十三》 6.《基金超额能力、规模报酬递减与价值创造——“学海拾珠”系列之一百六十二》 7.《因子间相关性与横截面资产回报 ——“学海拾珠”系列之一百六十一》8.《交易量对波动率的非对称效应— —“学海拾珠”系列之一百六十》 本篇是“学海拾珠”系列第一百六十八篇,文献探究了使用机器学习方法,通过基金特征选择多头基金组合的可能性,并且深入分析了机器学习选出的多头组和传统方法的区别,揭示了基金特征在预测未来业绩方面的非线性相互作用。回到国内市场,我们可以使用类似的方法构造策略。 传统线性方法与文献研究方法 传统研究中,某些基金特征可以用来预测基金的业绩(Jones和 Mo,2020)。通常会每月或每季度对基金基于特征进行排名,然后将资金分成�组或十组,评估这些基金组合的多空业绩。然而只有少部分特征在扣除全部费用后能选择出正Alpha的多头基金组合。 文献使用17个基金特征,采用三种机器学习方法:弹性网络 (elasticnet,)、梯度提升(gradientboosting)和随机森林(randomforests)来预测基金alpha,并将预测值前10%的基金构建成组合。同时对比普通最小二乘法(OLS)以及两个朴素策略:基金等权组合和资产加权组合。 机器学习方法能够显著优化基金多头策略 梯度提升和随机森林下基金多头组合的费后净Alpha为每年 2.36%和2.69%(FF5因子+动量模型评估)。相比之下,基于线性方法 (弹性网络和OLS)的组合净alpha为每年1.09%和1.21%,统计不显著,等权和资产加权组合分别实现了每年-0.22%和-0.44%的负的净Alpha。 因此,美国主动基金在扣除成本后平均业绩不及被动基金(平均净Alpha为负),线性模型可以帮助投资者避免业绩不佳的基金(正向不显著的Alpha),只有通过非线性和相互作用的机器学习方法才能通过主动管理获益(正的显著的Alpha)。 基金特征与未来业绩之间的非线性关系 拆解结果后发现,valueadded、Alpha的t-统计值、市场Betat- 统计值和R²是梯度提升和随机森林方法中最重要的特征。基金主动程度与未来业绩之间存在高度的非线性关系,对于主动度更高的基金来说,过去的业绩是一个特别强大的预测因子。 线性方法下,发现排名前10%的基金“太小”,机器学习有助于选择基金不仅因为它可以识别有Alpha的管理者,且可以识别Alpha不完全被规模报酬递减抵消的管理者。 风险提示 文献结论基于历史数据与海外文献进行总结;不构成任何投资建 议。 敬请参阅末页重要声明及评级说明证券研究报告 正文目录 1简介4 2数据6 2.1CRSP样本数据6 2.2共同基金特征6 2.3目标与预测变量8 3机器学习方法9 3.1弹性网络(ELASTICNET)10 3.2随机森林(RANDOMFORESTS)10 3.3梯度提升(GRADIENTBOOSTING)11 3.4超参数的交叉验证11 4机器学习组合的业绩11 4.1业绩评估方法11 4.2样本外费后业绩12 5哪些特征和相互作用比较重要?14 6结论19 风险提示:19 图表目录 图表1文章框架4 图表2基金特征及其定义8 图表3基金特征:描述性统计8 图表4目标变量与基金特征的关系矩阵9 图表5基金组合的样本外ALPHA12 图表6各个方法样本外ALPHA与OLS对比13 图表7样本外平均超额回报与风险14 图表8特征重要性14 图表9梯度提升中基金特征与业绩关系的非线性15 图表10随机森林中基金特征与业绩关系的非线性16 图表11相互作用的重要性17 图表12双重筛选组合的样本外ALPHA17 图表13梯度提升中特征重要性随时间的变化18 图表14随机森林中特征重要性随时间的变化19 1简介 图表1文章框架 资料来源:华安证券研究所整理 关于共同基金的研究表明,考虑到交易成本、费用及其他支出,主动管理基金的平均风险调整回报(Alpha)往往为负(参见Sharpe,1966;Jensen,1968;Gruber,1996;Ferreira等,2013年的研究)。虽然Wermers(2000)、Barras等人(2010)、Fama和French(2010)、Kacperczyk等人(2014)、Berk和VanBinsbergen(2015)的研究记录到一些管理者的业绩超越了基准,但要事先识别出这些优秀的基金非常困难。本文献通过利用机器学习方法挖掘基金特征与业绩间的非线性关系和相互作用,展示了如何构建多头策略的可交易共同基金组合,以获得扣除所有成本后显著的样本外Alpha。文献的结果显示,如果投资者使用能捕捉基金特征与业绩之间复杂关系的高级预测方法,那么他们通过投资主动管理的共同基金可以赚取显著的Alpha。 近期,被动型基金在美国的规模已经超过了主动型基金,许多专家认为,被动型基金的兴起是因为大多数主动管理者长期无法超越费率更低的被动替代品(参见Gittelsohn,2019)。为了探究是否存在业绩突出的主动管理者,研究人员已经对过去的基金回报是否能预测未来业绩进行了研究。从这些研究中得出的共识是,净Alpha值的持续正增长是不可能的,尤其是在考虑到共同基金回报对市场动量因子的敏感性之后(参见Carhart,1997)。 Berk和Green(2004)的模型与基金净Alpha缺乏持续性的观点一致。在这 个模型中,投资者会根据过去的回报,无限制地向他们认为业绩优异的基金注入资金。如果投资组合管理存在规模报酬递减,在平衡状态下,历史拥有正Alpha的基 金会吸引更多资产,从而获得与其他主动基金相同的预期净Alpha:即等于被动基准(零)。然而,信息摩擦可能会阻碍投资者资金的流动,使得基金业绩不会完全趋向于零(参见Dumitrescu和Gil-Bazo,2018;Roussanov等人,2021)。因此,共同基金业绩是否可预测,实际上是一个需要经验数据支撑的问题,这一问题在文献中受到广泛关注。有几项研究显示,共同基金的特征可以用来预测基金的业绩;详见Jones和Mo(2020)的综述。通常,这些研究会根据共同基金的特征,每月或 每季度对基金进行排名,然后,将资金分配到�组或十组,并评估这些基金组合的多空业绩。然而,过往文献的基金特征中,只有少部分指标在扣除交易成本、费用和其他支出之后仍能选择出正Alpha的多头基金组合,因为基金不能轻易做空,投 资者只能通过选择正净Alpha的多头组合来从主动管理中获益。 文献研究方法如下:首先,用到了17个不同的基金特征来预测业绩,更全面地考虑问题的复杂性。基金业绩受到多种因子影响,包括管理者的多方面能力、投资组合约束、管理者激励和代理问题,以及基金的交易成本、费用和其他支出。其 次,采用三种机器学习方法来预测基金业绩:弹性网络(elasticnet,)、梯度提升 (gradientboosting)和随机森林(randomforests)。这些方法能够处理不相关或高度相关的预测因子,因此,在考虑多个特征的同时降低过度拟合的风险,这种风险通常低于普通最小二乘法(OLS)。此外,两种基于决策树的方法(梯度提升和 随机森林)能够识别非线性和交互作用,可能会发现弹性网络或OLS等线性方法可能错过的可预测性。第三,策略需要可以交易,因此只考虑基金多头组合且仅使用过去的数据来构建,并根据净Alpha评估其未来(样本外)业绩,同时扣除费用、交易成本和其他支出。最后,文献根据基金特征采用动态方法进行组合再平衡,允许特征与业绩之间的关系随时间变化,以适应由投资者学习或市场条件变化而引起 的基金业绩决定因子的变化。 文献比较三种机器学习方法、OLS以及两种简单策略(所有基金的等权重和资产加权组合)构建的基金组合的样本外费后业绩。使用1980至2020年期间美国主 动管理共同基金的回报和17个特征的月度数据,只考虑无附加费用基金,以确保Alpha是扣除所有成本之后的。使用前10年的数据来训练这三种机器学习方法和OLS,预测未来一年的净Alpha,使用Fama和French(2015)以及动量因子的�因子模型来进行估计。17个基金特征的滞后值为预测因子,多头组合包含预测净Alpha排名前十分之一的基金,并计算该组合在接下来12个月的净回报,对于每一个接下来的年份,将训练样本向前推进一年,构建一个新的前十分之一的基金组合,并跟踪其接下来12个月的净回报。通过这种方式,构建了一个从1990年到2020年的月度样本外净回报时间序列。最后使用了四种不同的模型评估整个样本外时期的组合净Alpha:Carhart(1997)的四因子模型;Fama和French(2015)的�因子模型(FF5)(增加了动量因子的FF5);以及增加了动量和Pástor与Stambaugh(2003)的流动性因子的FF5。 研究有�个主要发现: 1、利用非线性和相互作用能力的两种机器学习方法(梯度提升和随机森林)做出的多头基金组合在扣除所有成本后分别实现了每年2.36%和2.69%的显著净Alpha(基于增加了动量因子的FF5模型评估),这些Alpha值在经济上也具有意义,是样本中平均费率(1.11%)的两倍以上。相比之下,基于线性方法(弹性网络和OLS)的组合只能提供每年1.09%和1.21%的净Alpha,统计意义上与零无显著差异。等权重和资产加权的组合分别实现了−0.22%和−0.44%的每年净Alpha,与现有证据一致。即平均而言,主动管理基金在扣除成本后业绩不及被动基金。换 用其他因子模型来评估样本外Alpha时,结果类似。总体来看,尽管例如数据中的预测性指标可以帮助投资者避免业绩不佳的基金,但只有通过非线性和相互作用的机器学习方法(梯度提升和随机森林),投资者才能通过投资于主动管理基金获得显著的正净Alpha。 2、发现机器学习揭示了基金特征与未来业绩之间的非线性关系和相互作用。在非线性机器学习方法中,最重要的特征包括各种过去业绩指标和基金主动程度 (fundactiveness)的指标。基金主动程度与未来业绩之间存在高度的非线性关系,对于最主动的基金,这种关系显著正向,但对于其他基金则相对平坦,对于主动程度更高的基金来说,过去业绩是一个特别强大的未来业绩预测因子。 3、鉴于非线性机器学习方法中发现了过去业绩与基金主动程度之间相互作用,文献进一步探索双重筛选基金的可能性,即同时考虑业绩指标和基金主动程度,以实现正净Alpha。尽管通过双重筛选能够获得正净Alpha,但这种组合的业绩对过 去业绩和基金主动程度的指标极为敏感。且过去业绩和基金主动程度的相对预测能力会随时间发生显著变化,因此,为了实现样本外的超额业绩,投资者应当动态地运用机器学习来识别每个时间点上重要的特征和相互作用。 4、Roussanov等人(2021)曾经使用贝叶斯方法估计基金skill,发现skill分布前10%的基金“太小”,无法抵消其规模报酬递减。文献计算了四种预测方法产 生的10%投资组合的平均净skill和基金规模,发现排名前10%的基金“太