您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国金证券]:智能化选基系列之六:如何用AI选出持续跑赢市场的基金? - 发现报告
当前位置:首页/其他报告/报告详情/

智能化选基系列之六:如何用AI选出持续跑赢市场的基金?

2024-07-01高智威、赵妍国金证券J***
智能化选基系列之六:如何用AI选出持续跑赢市场的基金?

机器学习选基背景概述 本篇报告是国金证券金融工程团队智能化选基系列的第六篇,在本篇报告中,我们将机器学习方法应用到了基金研究中。量化选基主要从基础特征、业绩动量、持有人结构、交易特征等角度进行因子构建,目前普遍的方法是对因子进行等权合成。然而,此方法难以捕捉因子之间的非线性关系,还面临合成时的多重共线性问题,在不同的市场环境下,选基因子难以长期有效。随着基金数量和规模的激增,使用机器学习进行基金优选前景日益广阔。近些年,机器学习选基在学术界亦有着丰富的研究成果。 机器学习模型进行量化选基 我们基于文献中提出的表现突出的因子,结合团队智能化选基系列报告构建出来的优秀因子,从六因子模型、业绩动量、基金基础特征、资金流、交易动机、财务报表等多角度进行因子构建。 在模型选择和标签构建上,由于树模型相对于神经网络模型更适合处理规模不大的数据,并且泛化能力更强,我们使用随机森林、XGBoost和LightGBM模型来预测基金在下个月跑赢万得偏股混合型基金指数的概率,并最终进行等权合成为机器学习选基因子;若基金的月度收益率能够战胜基准,则记录为1,反之则为0。我们结合因子在样本内的特征重要性和线性表现构建了22个机器学习基础因子。三大机器学习模型构建出的因子表明了基金在下个月能够战胜万得偏股混合型基金指数的概率。 在具体训练上,采用滚动学习和5折交叉验证的方式,为避免偶然性,模型因子为取5个随机种子平均后的结果,单 次滚动时样本内合计时长为94个月,样本外时长为3个月。整体来看,模型训练集、验证集和测试集占比大约为75%、 20%和5% 基于机器学习模型的AI智选基金组合构建 为了对比和线性模型的表现,我们将22个因子进行等权线性合成,并在样本外做了因子检验,发现因子IC相较于合成前未有明显增强,与机器学习因子相比未见明显优势。从多头超额净值表现来看,机器学习因子稳定性优于线性因子。 我们将上述三大机器学习模型因子进行等权合成,合成后的AI智选基金因子IC均值为3.03%,t统计量为1.27,多空Sharpe比率为0.83,多空最大回撤率为10.33%、多头年化超额收益率为4.82%。合成后的因子分位数组合比单个机器学习因子单调性更好。从策略表现上看,随机森林、XGBoost和LightGBM三大机器学习模型选基策略在每一个完整年度(19-23年)都可以获得正的超额收益。总体而言,XGBoost和LightGBM模型的年化收益率更好,最大回撤率更低,使用合成后的AI智选基金因子构建策略,发现策略超额净值稳定,跑赢基准显著。 机器学习模型的因子因为用类似的逻辑得出,模型架构相似,故而相关性较高,与线性模型相关性多在0.75以下。 AI智选基金组合自2019年2月至2024年4月,获得14.35%的年化收益率,相对于万得偏股混合型基金指数获得了5.54%的年化超额收益率,信息比率达到1.02,超额净值最大回撤率仅有6.59%。策略月度平均双边换手率为35.43%。分年度来看,AI智选基金因子每一完整年度都可以稳定战胜万得偏股混合型基金指数,在过去5年里除了2021年以外都可以明显战胜线性因子,在市场回调下表现优异。超额收益相对单一机器学习模型更加稳定。 风险提示 以上结果通过历史数据统计、建模和测算完成,历史规律不代表未来;在市场环境发生变化时,模型存在失效的风 险;策略依据一定的假设通过历史回测数据得到,当交易成本或其他条件改变时,可能导致策略收益下降甚至出现亏损。基金相关信息及数据仅作为基金研究使用,不作为募集材料或者宣传材料。 内容目录 一、机器学习选基研究背景4 二、如何使用机器学习进行量化选基?4 2.1机器学习量化选基流程4 2.2基金池构建和基准选择5 2.3因子计算和筛选7 2.4如何选择合适的机器学习模型进行训练?9 2.5标签构建与数据标准化处理9 2.6结合特征重要性和线性表现进行因子筛选9 三、机器学习选基算法介绍10 3.1标签构建与数据处理10 3.2基于决策树算法的集成模型11 3.3随机森林算法介绍12 3.4XGBoost算法介绍12 3.5LightGBM算法介绍13 四、因子构建与回测13 4.1基金选择范围与因子测试方法13 五、基于机器学习因子的AI智选基金组合16 5.1选基范围及调仓构建逻辑16 5.2三大模型策略表现对比17 5.3机器学习因子相关性较高17 六、总结19 七、风险提示19 图表目录 图表1:公募基金规模及数量变化4 图表2:主动权益型基金规模及数量变化4 图表3:机器学习方法选基流程一览5 图表4:基金池构建条件5 图表5:基金池中成分基金数目变化情况6 图表6:万得偏股混合型基金指数(885001.WI)编制规则6 图表7:2010年以来净值走势:万得偏股混合型基金指数VS宽基指数7 图表8:六因子模型特征介绍7 图表9:梯度提升算法中截距项的t统计量因子表现优异8 图表10:随机森林算法中t统计量因子表现优异8 图表11:因子构建总表8 图表12:机器学习选基因子计算与合成9 图表13:机器学习模型样本内特征重要性分布(前10大)10 图表14:机器学习模型基础因子表10 图表15:机器学习选基方法示意图11 图表16:随机森林模型的结构12 图表17:XGBoost模型的结构13 图表18:LightGBM模型的结构13 图表19:回测条件14 图表20:机器学习标准化后基础因子样本外检验结果14 图表21:各大模型因子检验结果15 图表22:随机森林因子分位数组合表现15 图表23:随机森林因子与线性因子多头超额净值对比15 图表24:XGBoost因子分位数组合表现15 图表25:XGBoost因子与线性因子多头超额净值对比15 图表26:LightGBM因子分位数组合表现16 图表27:LightGBM因子与线性因子多头超额净值对比16 图表28:AI智选基金因子检验结果16 图表29:AI智选基金因子分位数组合表现16 图表30:AI智选基金因子与线性因子多头超额净值对比16 图表31:机器学习策略表现对比17 图表32:三大机器学习选基策略分年度超额表现17 图表33:机器学习模型选基因子相关性较高18 图表34:AI智选基金组合超额净值表现18 图表35:AI智选基金组合净值表现18 图表36:AI智选基金组合指标统计18 图表37:AI智选基金组合分年度超额收益率表现19 一、机器学习选基研究背景 本篇报告是国金证券金融工程团队智能化选基系列的第六篇。在本篇报告中,我们将机器学习方法应用到了基金研究中。 传统的量化选基主要从基金的基础特征、业绩动量、持有人结构、交易特征等角度挖掘有效的选基因子,目前普遍的方法是对因子进行线性合成。然而,此方法难以捕捉因子之间的非线性关系,还面临合成时的多重共线性问题,在不同的市场环境下,选基因子难以长期有效。 机器学习在选股领域的研究已经较为成熟,在数据类型上股票市场拥有大量的基本面、量价、另类和数据;在数据频率上股票还有level2、tick和逐笔成交等高频数据,可以充分对模型进行训练,提升泛化能力。相比之下,基金的份额、规模、持仓情况等核心数据频率较低,多在基金季报披露后才可以获得,即每年的1、4、7、10四个月末才可以更新因子。部分因子比如基金的持有人结构只能在基金的中报、年报披露后的3月与8月才可以获得,因而,机器学习在基金标的上的应用相对较少,但是不代表无法应用到该领域上来。 随着基金数量和规模的激增,使用机器学习进行基金优选前景日益广阔。截至2024年5 月31日,我国公募基金总管理规模达到29.09万亿元,公募基金数目突破11900只。近 些年,主动权益型基金(普通股票型及偏股混合型)持续扩容,虽然在2022-2023年发行量有所萎缩,2023年依然有近300只基金成立。 图表1:公募基金规模及数量变化图表2:主动权益型基金规模及数量变化 (只) 14000 12000 10000 8000 6000 4000 2000 0 20172018201920202021202220232024 基金数量合计基金资产净值合计 (亿元) 350,000 300,000 250,000 200,000 150,000 100,000 50,000 0 (只) 3500 3000 2500 2000 1500 1000 500 0 201620172018201920202021202220232024 基金数量合计基金资产净值合计 (亿元) 350,000 300,000 250,000 200,000 150,000 100,000 50,000 0 来源:Wind,国金证券研究所 注:数据截至2024年5月31日。 来源:Wind,国金证券研究所 注:数据截至2024年5月31日。 近年来,机器学习选基在学术界有着较为丰富的研究成果。BinLi和AlbertoRossi等学者于2021年在论文《SelectingMutualFundsFromtheStocksTheyHold:aMachineLearningApproach》中使用BoostedRegressionTrees(BRT)方法,表现优于LASSO、弹性网络和隐藏层较少的神经网络等模型,获得了超过6.5%的年化超额收益,并且在1%的水平上具有统计显著性。此外,在2023年8月发表的论文《Machine-LearningtheSkillofMutualFundManagers》中,作者使用前馈神经网络FeedforwardNeuralNetworks (FFN)和GradientBoostedTrees(GBT)来评估共同基金经理的技能,揭示了基金动量特征和资金流动对超额收益有显著预测作用,实现了0.87的年化夏普比率。机器学习方法能够适应市场的变化,不断从数据中学习,自适应性强,相比起传统的线性多因子模型可能有着更为稳定的表现。 二、如何使用机器学习进行量化选基? 2.1机器学习量化选基流程 机器学习选基模型构建大致可以分为以下步骤: (1)构建基金池和基准:对在市的基金按照特定标准进行筛选,构建基金池;选择合适的基准,基准的表现要能反映出基金池中具体标的的平均表现。 (2)因子计算与筛选:根据基金池的特征和风格计算筛选因子,并按照某种规则设立标签,用合适的方法对因子进行标准化 (3)选择模型,训练调参:结合数据特点,选择合适的机器学习模型,划分为样本内和样本外,在样本内进行训练并进行参数调优,以期在样本外有更好的表现。 (4)生成信号,构建策略:基于模型运行结果,生成信号,构建策略,并进行跟踪和评估。 图表3:机器学习方法选基流程一览 来源:国金证券研究所 2.2基金池构建和基准选择 我们按照下列规则构建基金池: 编号筛选条件 图表4:基金池构建条件 1每月月末构建基金池 2基金筛选范围:普通股票型、偏股混合型基金、灵活配置型基金 3基金份额类型为A或无 4时间区间:2010年1月29日2024年3月29日 来源:Wind,国金证券研究所 我们统计了在上述规则下基金池中成分基金的数目,从2010年1月末至2024年3月末, 符合条件的成分基金数目从323只增长至3881只,数量充足,为基金优选提供了丰富的空间。 图表5:基金池中成分基金数目变化情况 (只) 4500 4000 3500 3000 2500 2000 1500 1000 500 0 来源:Wind,国金证券研究所 许多投资者的权益型基金组合以超越万得偏股混合型基金指数为目标。万得偏股混合型基金指数以Wind投资类型二级分类中的偏股混合型基金为选样空间,选择成立3个月以上的基金编入指数,要求基金的权益类资产上限不低于75%或者下限不低于50%,可以很好反映偏股混合型基金整体表现。 指数名称及代码万得偏股混合型基金指数(885001.WI) 图表6:万得偏股混合