金融工程 专题报告 使用机器学习识别基金经理投资能力 ——“学海拾珠”系列之一百�十六 报告日期:2023-08-30 主要观点: 分析师:严佳炜 执业证书号:S0010520070001邮箱:yanjw@hazq.com 联系人:钱静闲 执业证书号:S0010522090002邮箱:qianjx@hazq.com 相关报告 1.《运用少量ETF可以复制主动基金的业绩吗?——“学海拾珠”系列之一百�十》 2.《A股的流动性、波动性及其溢出效应——“学海拾珠”系列之一百�十一》 3.《人工智能可以读懂企业高管的想法吗?——“学海拾珠”系列之一百 �十二》 4.《Alpha与风格因子的综合风险评价策略——“学海拾珠”系列之一百 �十三》 5.《信息不确定性、投资者情绪与分析师报告——“学海拾珠”系列之一百�十四》 6.《通胀是否会影响会计信息-股票价格间的相关性?——“学海拾珠”系列之一百�十�》 本篇是“学海拾珠”系列第一百�十六篇,文献使用机器学习模型将基金超额回报与共同基金的特征(包括它们所持有的股票的特征)以及反映经济状况的变量联系起来,探讨了神经网络模型,主要是前馈神经网络在基金业绩预测方面的应用。回到国内市场,将机器学习用于基金研究方面的研究相对较少,我们可以尝试类似的方法进行业绩预测。 预测变量、特征与模型设置 文献主要预测的对象是共同基金的异常回报,它衡量了扣除系统风险因子敞口后的基金绩效。 使用的特征包括:基金持仓股票的46个特征(已被证明对预期回报的横截面排序有预测力),基金动量、基金特征(成立时长、规模、资金流、费率、换手)、家族特征、市场情绪。 预测模型使用人工神经网络,它允许变量之间的交互作用,以及特征与未来基金绩效之间的非线性关系,根据它对下个月异常回报的预测,将基金分为十分组构造组合,生成预测值加权投资组合和等权投资组合。 结论 根据神经网络模型的预测,投资于10%最佳基金的投资策略,将获得72%的累计异常回报,最差的10%将获得-119%的累计异常回 报,规避最差的基金比投资最佳的基金更有价值,扣费后多头组仍有超额收益。 当分别仅使用股票特征、股票特征和情绪、基金特征、基金特征和情绪时,发现结果差异巨大,基金特征与股票特征形成鲜明对比,美国权益基金具有持久显著预测能力的变量为基金动量与基金资金流,且它们与情绪存在交互作用,两者间存在线性模型无法捕捉到的交互效应。 风险提示 文献结论基于历史数据与海外文献进行总结;不构成任何投资建议。 敬请参阅末页重要声明及评级说明证券研究报告 正文目录 1引言4 2数据与变量5 2.1数据5 2.2基金的异常回报5 2.3基金的持仓特征5 2.4宏观经济变量6 3样本内基金表现单变量分析7 4主要分析与讨论9 4.1前馈神经网络10 4.2最优预测11 4.3预测基金异常回报的重要特征12 4.4特征重要性与交互效应15 4.5宏观经济变量的选择16 5总结18 风险提示:18 图表目录 图表1基金的股票特征及其分类6 图表2投资者情绪时序图7 图表3CFNAI时序图7 图表4基金单变量多空组合异常回报8 图表5基金单变量多空组合FAMA四因子回归结果9 图表6单层前馈神经网络模型10 图表7两种赋权方式11 图表8不同赋权方式下的累计异常回报11 图表9累计费率与净异常回报12 图表10改变变量信息组合对预测能力的影响13 图表11多空组合:样本外预测的累计异常回报14 图表12使用不同信息下的多空组合表现14 图表13异常回报的解释中特征重要性最高的变量15 图表14基金特征组与情绪变量的条件均值16 图表15不同宏观变量下的多空组合异常回报16 图表16多空组合在不同情绪指标分组下的异常回报17 图表17情绪指标以及CFNAI与基金特征变量间的交互效应18 1引言 随着资产管理行业迅速增长,截至2020年底,美国的共同基金管理资产达到 24万亿美元,其中超过一半的资产投资于股票型共同基金。过往文献中对于股票型共同基金的投资绩效研究中有许多结果,有些结论不一致。文献献使用最新手段— —机器学习,重新探讨哪些共同基金特征以及它们持有的股票特征能够有效区分出 表现优秀的基金和表现不佳的基金。结果显示,资金流入和基金业绩动量是唯一两 个能够明显且稳健地帮助区分表现优秀基金的特征。在投资者情绪较高时,基金绩效在头部和底部的相对比较尤为显著。 文献研究了1980年至2019年之间主动型美国股票型基金以及它们所持有的股票,并计算基金的四因子alpha作为基金的异常回报。解释变量包括由基金持仓组成的46个股票特征和13个基金以及基金家族的特征组成的变量列表。基金特征包括基金业绩动量和资金流入,还有一个总结市场整体状况的变量,可以由投资者情绪或宏观经济活动的综合指标来代替。文献主要使用人工神经网络模型(artificialneuralnetworkmodel),具体来说是前馈神经网络(feedforwardneuralnetwork), 它可以可靠地估计大量变量之间的复杂关系,所有的预测都是样本外的。研究结果发现,基金特征信息中的资金流入和基金动量,是模型内共同基金表现优秀的关键预测因子。 预测结果在样本外表现上有很大的差异。预测表现最佳的10%共同基金可以在样本期内产生72%的累计异常回报。每个月预测表现最差的10%共同基金则有累计异常回报-119%。基于模型的预测,样本外表现的191%差异在经济上具有重要意义并且在统计上显著。同时由于最佳和最差的基金的费用相似,这一结果在考虑费用前后的异常回报上都成立。 如果修改模型,比如删除所有股票特征信息,模型的结果与完整模型基本无差异。事实上,还可以删除大部分基金和基金家族的特征,仅使用资金流入、基金动量和情绪的模型。其预测结果几乎与完整模型一样。对于预测表现最佳和最差的十分位数,每月都能够产生近50个基点的超额回报,该策略的夏普比率为每月0.25。 在发现资金流入和基金动量是关键预测因子后,进行单变量分析,发现它们都能够预测基金表现。然而,这种单变量分析未能考虑到这两个特征与投资者情绪的非线性交互效应。其后,文献通过ChicagoFedNationalActivityIndex(CFNAI)来衡量宏观经济状况,当它与基金特征结合使用时,与情绪一样能够预测最佳和最差的基金表现。但与情绪相比,CFNAI在预测前十分位数和后十分位数内的相对回报方面表现不佳。追溯这一差异,发现是因为CFNAI与基金特征之间缺乏交互效应。总的来说,共同基金的回报是可以在实时预测的。这种可预测性持续三年,并且 在经济上具有意义。即使在扣除费用后,大约有10-20%的基金仍然产生正的异常回报。大多数回报来自于规避表现最差的基金。 资金流量(Flow)和基金动量作为关键预测因子的显著性表明,一些投资者能够识别出投资经理的技巧,并重新分配他们的资金以选择这些能力突出的经理。这种资金流向的重新分配并不像Berk和Green(2004)的无摩擦模型预测的那样强烈,与此相反,这些资金流动是渐进的且规模较小,需要经过几个时期才能使基金的边际异常回报降至零。 分析结果也可能与基金公司通过营销吸引资金流入导致。但是,由营销引发的资金流入会为基金投资的股票带来购买压力,在需求呈下降趋势时,这将提高股价并提升基金回报。通过资金流与绩效之间的关系,以及通过营销驱动的流入的持续 性,超额表现在下一个时期将带来更多的流入。需求压力进一步提高了股价,产生了基金回报的动量。事实上,在投资者情绪高涨时,流入和基金动量与基金绩效之间存在更强的关联性,这进一步证实了这种以营销为驱动的渠道的存在。 2数据与变量 2.1数据 文献使用的数据信息包括美国主动管理型权益基金样本,数据有共同基金的回报、费用、总净资产(TNA)、投资目标以及其他基金特征。数据集包括自1980年 1月至2019年1月期间的3275只共同基金的407,158个观察值(按月计算)。将研究限制在具有在时间t观察到的原始回报以及在t-1观察到的持仓数据和总净资产的共同基金中。在每个时间t,每只基金需要在过去36个月内至少有30个非缺失的收益率观察值。 2.2基金的异常回报 文献主要关注的对象是共同基金的异常回报,它衡量了扣除系统风险因子敞口后的基金绩效。对每个基金-月观测值,基于Carhart(1997)模型计算基金异常回报。首先,基于前36个月估计因子载荷: 𝑅𝑖,𝑡−36:𝑡−1=𝛼�+𝐹𝑡−36:𝑡−1𝛽̂𝑖,𝑡−1+𝜂𝑖,𝑡−36:𝑡−1(1)其中𝑅𝑖,�是基金i在第t个月的回报(扣除一个月期国债收益率之后的回报), 滚动窗口回归允许因子敞口随时间变化。第二步,计算异常回报: 𝑖,� 𝑅𝑎𝑏�=𝑅𝑖,�−𝐹𝑡𝛽̂𝑖,𝑡−1(2) 异常回报在样本中的均值为每月-0.03%,标准差为2.00%。因此,共同基金的回报与Carhart模型的预测平均相符,但存在较大的横截面离散度。尽管存在一些关于实际共同基金投资者使用哪种回报模型的争议,Carhart模型可以说仍然是共同基金文献中的主要因子模型,因此是此次研究的基准。主要结果在替换使用八因子模型的异常回报时仍然稳健。 2.3基金的持仓特征 共同基金持有的股票信息参考Chen、Pelger和Zhu(2020)的文献,涵盖了已被证明对预期回报的横截面具有预测力的46个特征,这些特征在图表1中分成六个子组。 图表1基金的股票特征及其分类 资料来源:《Machinelearningtheskillofmutualfundmanagers》,华安证券研究所 数据集使用特征空间中的潜在的因子来填补缺失的基金特征,因而对所有407,158个基金/时间观察值都有一个完整的基金特征集合。结果对数据填充具有稳健性,并且在具有完全观察到数据的子集中基本相同。所有股票特征都经过横截面标准化,以根据股票在该特征上的排名范围从-0.5分布至0.5。调整股票特征排名的符号,使得相应的多空因子具有正的风险溢价。 在样本中,共同基金成立平均有13.7年,11.53亿美元的规模,并收取约0.1% 的月费率。共同基金的资金流量被定义为: 𝑓𝑙𝑜𝑤𝑖,� =𝑇𝑁𝐴𝑖,�−𝑇𝑁𝐴𝑖,𝑡−1(1+𝑅𝑖,𝑡) 𝑇𝑁𝐴𝑖,𝑡−1 在整个样本期间,每只基金每月平均约有1.6%的资金流入。 2.4宏观经济变量 为了研究共同基金的绩效是否与经济状况有关,样本空间涵盖投资者情绪 (Baker和Wurgler(2006))以及ChicagoFedNationalActivityIndex(CFNAI),图表2与图表3绘制了这两个宏观变量的时间序列图。 图表2投资者情绪时序图 资料来源:《Machinelearningtheskillofmutualfundmanagers》,华安证券研究所 图表3CFNAI时序图 资料来源:《Machinelearningtheskillofmutualfundmanagers》,华安证券研究所 3样本内基金表现单变量分析 文献初步探讨了哪些基金特征与共同基金绩效相关,这个分析并不替代后续的完整分析,因为它在样本内进行的,同时忽略了基金特征与基金异常回报之间的关系可能存在重要的非线性关系,以及多个特征之间或特征与宏观变量之间可能存在重要的交互作用效应的可能性。 对于这59个特征,根据特征的值将基金的异常回报分为十分位。然后,构建多 空投资组合,即排名最高和排名最低的十分位之间的差异。图表4的前两列报告了这些多空投资组合回报的均值和夏普比率,根据夏普比率从高到低排序。星号表示多空投资组合回报均值的显著性检验。 图表数据显示,基于基金特征(尤其是基金动量和流量(Flow))构建的投资组合具有最高的夏普比率,以及具有统计学意义的异常基金回报均值的结果,与后续主要分析有相合之处。在月