金融工程 专题报告 数据挖掘的修正与基金的业绩表现 ——“学海拾珠”系列之二百 报告日期:2024-08-14 主要观点: 分析师:严佳炜 执业证书号:S0010520070001邮箱:yanjw@hazq.com 分析师:钱静闲 执业证书号:S0010522090002邮箱:qianjx@hazq.com 相关报告 1.《宏观趋势与因子择时——“学海拾珠”系列之一百九十九》 2.《另类情绪指标与股票市场收益之间的关系——“学海拾珠”系列之一百九十八》 3.《基金在风格层面的情绪择时——“学海拾珠”系列之一百九十七》 4.《宏观环境对价值溢价的影响——“学海拾珠”系列之一百九十六》 5.《盈余公告后的机构共识:信息还是拥挤?——“学海拾珠”系列之一百九十�》 6.《言行统一:策略一致性与基金业绩 ——“学海拾珠”系列之一百九十四》 7.《本地同行对股利支付决策的影响 ——“学海拾珠”系列之一百九十三》 本篇是“学海拾珠”系列第二百篇,文献扩展了Markowitz等人的数据挖掘校正测试,允许定量模型的回报具有不同的市场贝塔值,并将其用于估计基金经理技能的显著性,还计算了使用过去回报测算时犯下第一类错误和第二类错误的概率。文献推导了使用过去回报预测未来持有回报的信息系数的近似公式,并将其与经验观察到的信息系数进行了比较。回到国内基金市场,也可以采用类似的方法测算基金在预测未来回报过程中是否采用了合适的数据样本,并验证指标的持续性。 业绩评估指标:超越传统t统计量 Lo(2002)利用Hansen于1982年提出的广义矩估计(GMM)方法,推导出夏普比率的估计误差,而Guerard、Wang和Xu (2019)进一步扩展GMM,推导出特雷诺比率的估计误差。一旦得出估计误差,就可以计算t值,t值能够验证或反驳与这些绩效指标相关的零假设,从而为做出明智的投资决策提供坚实的基础。 然而,考虑到基金的数量众多,仅对单个t统计量进行分析可能会高估有能力基金经理的比例:基于5年、10年和20年的回报数据,分别有20%、30%和50%的基金经理被证明是有能力的——这显然是一种高估。Fama和French(2010)通过三因子或四因子模型生成的alpha值指出,只有2%的基金经理表现出了统计学上显著的选股技 能,这突显了采用超越传统t统计量的高级统计技术来完善基金选择过程的必要性。 数据挖掘的修正测试 文献推导的模型能够基于过去的回报来计算基金的伪发现率 (falsediscoveryrate)。它还能够计算过去回报对未来回报的横截面预期预测能力。发现,即使使用�年的数据,使用过去回报来做出决策时犯下第一类错误和第二类错误的概率也非常高。 对于大盘基金,随着未来持有期从3个月延长至12个月,其预测能力增强。而对于小盘基金,随着未来持有期的延长,信息系数下降。对于给定的未来持有期,最近一年的收益的预测能力超过了最近三年的收益,这与线性收益模型的预测相反。这可能与近因偏差或短期周期效应有关。 风险提示 文献结论基于历史数据与海外文献进行总结;不构成任何投资建议。 敬请参阅末页重要声明及评级说明证券研究报告 正文目录 1引言4 2数据挖掘的修正5 3基金业绩模型5 4数据挖掘修正的测试7 5数据与方差的估计8 6业绩持续性分析11 7总结14 风险提示:14 图表目录 图表1文章框架4 图表2均值、标准差、年化夏普、TREYNOR比率(2003年11月~2023年10月)9 图表3共同基金描述性统计(单位:%)9 图表4平均年化夏普和TREYNOR比率以及标准差10 图表5估测的方差与零假设检验10 图表612、36、60个评估月下的FDP对比11 图表7过去12个月收益率的预测能力IC11 图表8过去36个月收益率的预测能力IC12 图表9信息系数IC之差(不同过去评估期与未来持有期)12 图表10多空收益之差13 图表11市场的序列相关性与基金的偏度13 1引言 图表1文章框架 资料来源:华安证券研究所整理 截至2022年底,美国独立的共同基金数量已激增至7000个,每个基金由不同的基金经理管理。此外,美国注册投资顾问(RIA)的数量也呈现前所未有的激增,总数高达15,144名。这些顾问能够长久成功的关键因素在于他们能够从众多基金中识别出表现最佳的基金。显然,基金经理在选股方面的技能存在很大差异。然而,关于基金过去的成功多大程度上归功于运气,以及过去的成功是否能可靠地预测其未来表现,仍然是一个有争议的问题。 多种指标都可以来衡量投资组合的表现,包括算术平均值、几何回报率和风险调整后的回报率。早期的研究者,如特雷诺(Treynor,1965年)、夏普(Sharpe,1966年)和詹森(Jensen,1968年),分别引入了特雷诺比率、夏普比率和詹森阿尔法作为业绩指标。这些业绩指标提供了点估计值,即特定时期内投资组合表现的快照。 任何普通最小二乘法(OLS)程序包的基本要素,即平均收益和阿尔法(alpha)的估计误差,有助于确认点估计的精确性。在2002年的一篇文章中,Lo利用汉森 (Hansen)于1982年提出的广义矩估计(GMM)方法,推导出夏普比率的估计误差,而Guerard、Wang和Xu于2019年进一步扩展了GMM的应用范围,推导出特雷诺比率的估计误差。 一旦得出这些估计误差,就可以计算t值,即用于评估结果数据集置信水平的统计标准。t值能够验证或反驳与这些绩效指标相关的零假设,从而为做出明智的投资 决策提供坚实的基础。 然而,考虑到基金的数量众多,仅对单个t统计量进行分析可能会高估有能力基金经理的比例。这一点在以下发现中得到了证实:基于5年、10年和20年的回报数据,分别有20%、30%和50%的基金经理被证明是有能力的——这显然是一种高估。 Fama和French在2010年进行的一项研究强化了这一点,他们指出,只有2%的基金经理表现出了统计学上有效的选股技能。这种技能是通过三因子或四因子模型生成的阿尔法值来衡量的。这突显了采用超越传统t统计量的高级统计技术来完善基金选择过程的必要性。 文献应用并扩展了Markowitz和Xu于1994年提出的用于评估回测模型的数据挖掘校正技术,以研究基金技能的变化。模型能够基于过去的回报来计算共同基金的伪发现率(falsediscoveryrate)。它还能够计算过去回报对未来回报的横截面预期预测能力。在大多数情况下,经验信息系数(ICs)与预期ICs在统计学上没有显著差异,无法确认或拒绝预期信息系数随过去和未来回报增加而变化的单调性。 2数据挖掘的修正 1964年引入的CRSP数据库包含从1925年12月起所有纽约证券交易所上市股票的数据,标准普尔(Standard&Poor)在1962年通过推出其全面的Compustat数据库,进一步丰富了数据的可用性。利用这两个数据库,可以轻松找到并仔细研究无数的资本资产定价模型,无论是线性的还是非线性的。这些新发现的资产定价模型的可靠性转化为对未来回报的预测,需要进行细致的测试和验证。Lopez(2018年)观察到,大多数基于机器学习工具的基金都会失败,并列出了10个原因。著名研究人员Arnott、Harvey和Markowitz(2018年)提出了一个结构化回测框架,以提高准确发现风险因素的可能性。 该框架涵盖七个广泛的类别,其中第二个类别侧重于多重测试和统计方法。在这里,重点是跟踪所有已进行的测试并执行多重均值测试,以确保这些资产定价模型的有效性。然而,基金经理仍在努力判断这些新发现模型的卓越表现是运气因素的结果,还是新风险因子的识别。 为了增强对报告业绩的判断信心,存在两种主要的测试方法。第一种方法是根据多重假设测试的背景,调整每个模型业绩度量的统计显著性(p值),如Harvey和Liu(2020年)所建议的那样,这有助于管理伪发现率(FDR)并减少I类错误的风险,即错误地拒绝有效的零假设(基金经理没有选股技巧)。Benjamini和Hochberg (1995年)首次提出了这种p值调整方法,而Benjamini和Yekutieli(2001年)则对其进行了进一步扩展。这种方法在医学研究领域得到了广泛应用。 第二种方法采用Markowitz和Xu于1994年提出的经验贝叶斯法。它建立在贝叶斯估计方法的原则之上,并有一个初步假设,即所有测试模型都具有相等的价值。正如Bloch等人(1993)对日本和美国市场、Guerard等人(2018)对中国股市、Guerard等人(2014)对美国市场以及Guerard,Xu,和Markowitz(2013,2021)对全球市场所做的那样,每个量化投资者都应该进行这种数据挖掘的修正测试。 3基金业绩模型 Markowitz和Xu(1994)提出了一种研究原始收益率R的替代方法,即考虑 1+R的对数,表示为ln(1+R),使用这种方法的原因如下: 1、可加性:这一数学特性简化了计算,特别是在评估不同时间段的收益率时,通过累加较短的对数收益率来表示任何延长的对数收益率时间段。 2、经风险调整的收益率:对数收益率近似于平均收益率减去方差的一半,这为投资收益提供了经风险调整的视角,从而能够更全面地理解业绩。 3、长期视角:正如Markowitz(1976,2006)、Latane(1959)以及MacLean,Thorp,和Ziemba(2011)所强调的,对数收益率ln(1+R)在长期内具有重要意义,因为这种衡量方式包含了更多信息,并提供了更准确的长期业绩视角。 该方法提供了对收益率及其伴随风险的更好理解,尤其是在较长的时间间隔内。假设有N个共同基金。对于每个共同基金,可以将其在t期的观测收益率表示 为𝑅𝑖�。那么,1加收益率的对数模型𝑔𝑖�可以表示为: 𝑔𝑖�=𝜇�+𝛽𝑖𝑧�+𝜁𝑖�(1) 此处𝜇�为技能系数,𝑧�为市场变量,𝜁𝑖�为特质性变量。所有随机变量相互独立,则 𝐸(𝜀𝑡)=0�(1a) 𝜎2�,�=� 𝐸(𝜀𝑠𝜀′)=[� (1b) �0𝑛�,�≠� � 𝐸(𝜇𝜀′)=0𝑛�,�=1,…,�(1c) 0�是n维0向量,0𝑛�是n×n维的0矩阵。 𝑑=0 对于基金i而言,未来k个持有周期收益率∑𝑘−1𝑔𝑖,𝑡+�的期望均值和期望方差 分别为: 𝑘(𝜇�+𝛽�𝑧̅) 𝑘𝛽2𝜎2+𝑘𝜎2 ��� 相信基金经理有意且谨慎地选择了β,因此𝛽𝑖𝑧̅应属于基金经理的技能范畴。解决这一问题的一个方法是去除市场效应的平均值,使得平均收益为零,𝑧̅=0。 对于投资顾问而言,以类别平均值为基准的共同基金相对业绩是关键。平均跨 k期持有期回报率是𝑧𝑡−𝑘,�。 过去k持有期回报率的横截面方差是 𝜎2=𝑘2𝜎2+𝜎2𝑧2+𝑘𝜎2(2) 𝑐,𝑘� �� 𝑡−𝑘,�� 过去k持有期回报率与未来l持有期回报率的预期横截面协方差是 �𝐼−1 𝐸𝛼,𝛽,𝜉𝐶𝑜�(∑𝑔𝑖,𝑡−�,∑𝑔𝑖,𝑡+𝑑)=𝑘𝐼𝜎2+𝑘𝐼𝜎2𝑧𝑡−𝑘,𝑡𝑧𝑡,𝑡+� 𝑑=1 𝑑=0 �� 通过分别对相关性公式的分子和分母应用期望算子,只能估计两个持有期之间的相关系数𝐼𝐶𝑡,𝑘𝐼,它是时间依赖的 �𝐼−1 𝐼𝐶𝑡,𝑘�=𝐸𝛼,𝛽,𝜉𝐶𝑜𝑟�(∑𝑔𝑖,𝑡−�,∑𝑔𝑖,𝑡+𝑑) 𝑑=1 𝑑=0 𝜎2+𝜎2�� =�� 𝑡−𝑘,� 𝑡,𝑡+� √𝜎2+(𝜎2𝑧2+𝜎2)/𝑘√𝜎2+(𝜎2𝑧2+𝜎2)/� �� 𝑡−𝑘,�� �� 𝑡,𝑡+�� 如果将这个公式的分子和分母都取市场回报预期,可以近似地将平均𝐼𝐶𝑘�视为 𝐼𝐶𝑘� � =𝐸𝐶𝑜𝑟�(∑𝑔𝑖,𝑡−� 𝑑=