证券投资基金研究报告/基金专题 量化选基金之因子测试初探 ——量化选基系列研究报告 摘要: 上海证券基金评价研究中心 分析师:孙桂平 执业证书编号:S0870519040001邮箱:sunguiping@shzq.com电话:021-53686102 分析师:池云飞 执业证书编号:S0870521090001邮箱:chiyunfei@shzq.com 电话:021-53686397 报告日期:2022年11月28日相关报告: 相比海外发达市场,我国公募基金具有可观的超越股票市场的Alpha收益。如何通过优选基金跟上公募基金整体表现,甚至于稳定获取超越公募基金的业绩表现,就是非常重要的一类投资策略。基金量化投资目标在于借助因子通过数量化方式找到能超越同类型基金表现的优秀基金产品,也就是寻找基金投资中的Alpha,从而使得基金组合可以稳定超越同类型基金的整体表现。 基金因子检验意义在于挑选出对未来基金收益有一定预测作用的基金因子,发现历史数据下能够稳定战胜市场的投资策略,为后续基金组合的构建打下坚实基础。本报告先从偏权益基金的一些常见产品因子开始测试,结果显示: 过去收益率因子和未来收益之间整体上存在着正向关系,揭示了过去收益率对未来收益有一定的解释性,少部分情况下相关性为负,出现“反转效应”。随着未来持有期的增加,预测性呈现出增强然后减弱的趋势,且“反转效应”减弱。相较而言,绝对收益率主要依赖于市场系统性收益,相对收益率因子更多依赖于能力。 波动率和最大回撤等风险指标对未来基金的风险指标的预测性很强,体现出极强的延续性。从长期结果来看,在基金风险暴露水平相近的情况下,上述指标对未来收益有显著的预测性,即上述指标小的基金整体上未来收益水平高,指标高的基金整体上未来收益水平低;短期来看,上述指标在上涨市场中,会出现“正向效应”,也就是上述指标高的基金短期收益更高。波动率因子不具备获取超越基金市场收益的能力,最大回撤因子则表现好一些,且对于夏普比率的预测性更好。 夏普比对未来收益的预测性相对显著,不同组别基金的分层效果更为明显,显示出高夏普比基金较强的超额收益获取能力。此外,夏普比对波动率完全没有预测性,但对最大回撤有一定预测作用,显示出夏普比高的基金整体上具有较好的极端风险控制能力。 相比海外发达市场,我国公募基金具有可观的超越股票市场的Alpha收益,如中国股基指数(CN6070)自基日(2004/12/31)至2022/9/30累计收益率为979.60%,而同期沪深300全收益指数的累计收益率为414.92%,中证500全收益指数的累计收益率为572.39%。公募基金整体具有优异表现,如何通过优选基金跟上公募基金整体表现,甚至于稳定获取超越公募基金的业绩表现,就是非常重要的一类投资策略。基金量化投资目标在于借助因子通过数量化方式找到能超越同类型基金表现的优秀基金产品,也就是寻找基金投资中的Alpha,从而使得基金组合可以稳定超越同类型基金的整体表现。 随着我国公募基金市场的发展,基金产品数量和规模也不断扩大,截止2022/9/30,市场中共有10190只基金(只统计基金主代码),合计管理规模为26.4万亿元,庞大的基金数量增加了主观选基难度,而定量分析方式基于数据处理上的优势,“自上而下”通过因子检验、筛选、组合等方式,便于及时发现基金市场中的总体趋势,特别是那些能够对未来基金超额收益有预测作用的趋势。本系列报告将从基金因子检验入手,最终构建出完整的基金量化投资框架。基金因子检验意义在于挑选出对未来基金收益有一定预测作用的基金因子,从而发现历史数据下能够稳定战胜基金市场的投资策略,为后续基金组合的构建打下坚实基础。 (一)因子检验模型 基金因子的检验可以借鉴多因子选股模型中的股票因子检验模型,目前常见的股票因子检验模型有分层测试等,基金因子检验也可以同样采取分层测试。此外还要注意一点,在因子测试过程中,尽量在较长时间测试因子的有效性是非常重要的。测试时间越短,越有可能在测试期间内有效,而在未来却有可能无效。 分层测试由五等分测试构成,即回溯测试基金范围根据基金因子值等分为5组,每组可视为一个基金投资组合,分别计算5个基金组合在未来一段时间的表现情况。如果选基因子有效,分层测试可以清楚表明:1)最高分位将显著战胜市场,最低分位将显著输给市场;2)战胜市场和输给市场的表现在多年中是稳定的;3)每个分位的收益之间将存在一定的线性关系。当然有的有效因子与收益之间呈现出非线性关系,借助分层测试也可以观察到。 此外,还需要注意的是,基金未来收益的来源是很复杂的,既有运气成分,也有基金经理的管理能力成分,当然还有其他因素,同样基金量化指标也很多,不存在始终有效的指标或者策略。因此根据因子测试结果选出的基金并不是每只都有效,也不是每年都有效,整体来说具有一定的投资价值即可。考虑到有些因子之间具有一定的相似性,而有些因子则是互补的,对单个基金因子的有效性深入了解之后,就可以和其他因子进行组合形成更加强大的投资策略。 主要检验指标: 1)信息系数(InformationCoefficient,IC),按照计算方法可分 为NormalIC和RankIC,前者表示所选基金的因子值与基金下期收益率的截面相关系数,后者表示所选基金的因子值排名与其下期回报排名的截面相关系数,IC值的大小和正负可以揭示因子值对未来基金收益率的预测能力的强弱和方向(正相关/负相关);2)信息比率(InformationRatio,IR),即年化超额收益与年化跟踪误差的比值,信息比率可以衡量投资组合主动承担风险所带来的超额收益能力,此处我们将市场定义为入选基金样本的整体平均表现。 (二)结果分析 基金因子是基金运作一段时间后形成的对基金具有识别作用的指标,不同类型的基金因子具有不同的辨识作用。基金因子可以按照基金产品、基金经理和基金公司等三大维度进行分类。本报告先从权益基金的一些常见产品因子开始测试,后续报告将测试范围扩展到相对专业因子上面,以及对基金经理和基金公司等多维度因子进行测试,样本基金的测试范围也将扩展到其他类型的公募基金。权益基金样本主要包含主动管理的股票型基金和偏股混合型基金,两者具有大致相近的风险暴露水平,测试时间段从2020/1/31至2022/9/30,基金样本中也包含测试时间段内已经清盘的基金,排除幸存者偏差,使得测试结果相对客观。 1)收益指标 ①绝对收益率因子 利用基金过去12个月和36个月年的累计收益率作为指标,检验其对未来3个月、6个月、12个月和24个月的收益率预测效果。 图1累计收益率Rank-IC和累计Rank-IC(过去12个月) 数据来源:上海证券基金评价研究中心、Wind资讯;测算时间段:2010/1/31至2022/9/30,样本按选样要求再往前追溯12个月,下同;上图从a到d的预测期分别为3个月、6个月、12个月和24个月,下同 图2累计收益率Rank-IC和累计Rank-IC(过去36个月) 数据来源:上海证券基金评价研究中心、Wind资讯;测算时间段:2010/1/31至 2022/9/30,样本按选样要求再往前追溯36个月,下同 每月底计算全部样本基金在过去一段时间累计收益率和未来一段时间累计收益率之间的相关性,并且选择通过2.5%置信度检验的月度 𝑖=1 Rank_IC计算累计Rank_IC,计算公式:累计𝑅𝑎𝑛𝑘_𝐼�=∑�Rank_IC�。 过去十多年的数据显示,过去收益率因子和未来收益之间整体上存在着正向关系,揭示了过去收益率对未来收益有一定的解释性,少部分情况下相关性为负,出现“反转效应”。图1和图2都显示,随着未来持有期的增加,预测性呈现出增强然后减弱的趋势,且“反转效应”减弱。图1b与图1a相比,以及图2b与图2a相比,相关性为正的数量明显增加,对应着负相关性明显减少,导致通过显著性检验的相关系数的累计Rank_IC也明显偏高,曲线波动性也减弱,当持有期继续增加时,因子的预测性则进一步减弱。同样持有期对比分析可以发现,较长的考察期对未来收益的预测更弱,图2d中甚至出现了很长时期完全没有显著相关性的情形,但是较长考察期的“反转效应”更弱。 图3不同组别基金的净值与样本基金全体净值比值(过去12个月) 数据来源:上海证券基金评价研究中心、Wind资讯;组1为过去收益率排名前20%的基金,组2为过去收益率排名在20%到40%的基金,以此类推,组5为过去收益率排名在后20%的基金,下同。 图4不同组别基金的净值与样本基金全体净值比值(过去36个月) 数据来源:上海证券基金评价研究中心、Wind资讯 月底根据过去一段时间累计收益率值从高到低划分为数量相等的5组,然后计算接下来持有期(预测期)内每组基金的平均收益率,持有期结束后再根据过去一段时间的累计收益率因子情况,调整每组基金的成分基金,再考察下一持有期收益情况,以此类推,最终得到每组基金的每段持有期收益率数据。 为了考察不同市场情形和增加样本数量,每月底都进行测试,例如持有期3个月,可以分为三种情况进行回测,分别对应每年1月/4月/7月/10月,每年2月/5月/8月/11月,每年3月/6月/9月/12月进行每组基金组合调整。取上述三组的收益率均值为作为最终的每组基金的持有期收益率数据。每个月进行一次分组,因为分组后会追溯未来一段时间业绩,因此存在部分基金在同一个月里同时出现在多个组别中。 图3、图4显示,与预测性变化相一致,随着持有期的增加,不同组别基金的分层效果也呈现出先增强后减弱的趋势,其中短持有期内出现明显“反转效应”(前期表现好的基金未来表现较差),反转既可能出现在剧烈动荡市场中(2015年),也可能出现在结构性市场中(2021年),以及震荡调整市场中(2022年),此后随着持有期增加,反转程度逐渐减弱,主要体现为不同组别基金的净值比值变化曲线波动性变小。同样持有期而言,过去36个月比过去12个月的分层效果更弱,但净值比值的变化曲线波动更小。 仅从因子测试而言,似乎基金持有较短的时间未来可以取得更好的超额收益,但事实并非如此,选择持有较长的时间则是较好选择。主要原因在于短持有期会带来频繁调仓,导致较高基金申赎费用,侵蚀基金组合收益。 下面测试中所有基金申购费用统一按照0.15%计算,基金赎回费用则考虑持有期的长短,持有3个月到1年的赎回费为0.5%,持有1年到 2年的赎回费为0.25%,持有超过2年不收取赎回费。结果显示,考虑基金申赎的情况下,基金短期持有带来的超额收益已经很大程度下削弱,甚至没有超额收益,而基金持有相对较长的时间带来的超额收益相对更稳定。 图5不同组别基金的净值与样本基金全体净值比值(过去12个月) 数据来源:上海证券基金评价研究中心、Wind资讯;样本基金全体净值的计算不考虑基金申赎费用,而组1到组5的基金组合考虑基金申赎费用,下同 图6不同组别基金的净值与样本基金全体净值比值(过去36个月) 数据来源:上海证券基金评价研究中心、Wind资讯 既然短期持仓对于基金组合的超额收益没有正贡献,接下来对比分析短期考察期和长期考察期持有基金较长的情况下,对基金组合超额收益贡献的差异性。结果显示,虽然最高因子组别下,长期考察期的信息比率全面落后于短期考察期,但次高因子组别下,长期考察期同样占据明显优势,且长期考察期持有较长期限的情况下,其信息比率是所有组别中最高的。 还可以注意到,表1中除了过去12个月预测未来12个月之外,其他情况下,均存在次高因子组别信息比率高于最高因子组别的情况,也就是说,虽然过去收益率因子对未来有一定的预测性,但过分追求过去收益率高的基金则导致未来表现不稳定,短期存在反转效应,追求次高因子对于稳定获取超额收益来说反而是比较好的选择。 表1信息比率 过去月份-预测 未来月份 组1 组2 组3 组4 组5 12-12 0.595 0.323 -0.225 -0.467 -0.350 12-24 0