深度报告——金融工程 选基多因子及私募FOF组合构建 报告日期:2023年07月14日 ★多因子选基是系统化的选基方式 现市面上将该多因子体系纳入选基金产品中,均用于公募基金的场景下。由于底层数据标准不统一、行业变换过快和监管要求不一等原因,私募的多因子选基依旧是空白期。单纯地对全市场私募产品从定性尽调的角度筛选是不现实的,私募FOF投资必定是定性与定量相辅相成,因此我们希望借鉴成熟的股票多因子体系,在本文定量地探讨基于私募产品历史信息,哪些维度的指标对基金后续表现具备预测意义?哪些指标能够解释截面上不同基金产品的收益差异? 金 融★四大类因子的选基效果 工为了更好地评价基金产品,我们收集了市面上常用的定量指标,并将其归类为四大类,分别为收益类、风险类、风险调整类和统 程计类。我们分别对该四大类因子进行IC测试和分层测试,从测试结果整理来看,风险矫正类因子的整体选基效果最优、收益类因 子的选基组合业绩具备弹性、统计类因子的通过率较低,而风险类因子整体的IC分布离散,无选基能力。 ★三种特性的FOF组合 通过观察有效单因子的FOF组合超额净值,我们发现风险矫正类因子的综合选基实力最强(多头组合的超额夏普比更高),收益类因子的进攻性更强(多头组合的超额收益更大),而统计类因子的防守性更好(多头组合的超额收益波动更小)。更进一步地,我们聚合大类因子并构造了进攻型、防守型和全能型的FOF组合,分别对应主动激进、被动防守和均衡配置,以供各位投资参考。 ★风险提示 指标计算和基金收益率基于历史数据得出,不排除失效的可能性。 王冬黎金融工程首席分析师从业资格号:F3032817 投资咨询号:Z0014348Tel:8621-63325888-3975 Email:dongli.wang@orientfutures.com 联系人徐凡 从业资格号:F03107676Tel:8621-63325888-3975 Email:fan.xu@orientfutures.com 重要事项:本报告版权归上海东证期货有限公司所有。未获得东证期货书面授权,任何人不得对本报告进行任何形式的发布、复制。本报告的信息均来源于公开资料,我公司对这些信息的准确性和完整性不作任何保证,也不保证所包含的信息和建议不会发生任何变更。我们已力求报告内容的客观、公正,但文中的观点、结论和建议仅供参考,报告中的信息或意见并不构成交易建议,投资者据此做出的任何投资决策与本公司和作者无关。 有关分析师承诺,见本报告最后部分。并请阅读报告最后一页的免责声明。 目录 1.何为多因子选基?5 1.1.优选私募基金产品难度加大5 1.2.多因子体系是系统化的选基方式6 2.四大类单因子测试7 2.1.基金数据预处理7 2.2.收益类:捕获率和盈利期数的选基效果出色9 2.3.风险类:IC分布离散,该类因子整体无选基能力11 2.4.风险矫正类:波动率矫正的选基效果最优12 2.5.统计类:仅已实现Alpha具备选基效果15 3.私募FOF组合构建17 3.1.大类因子呈现三种不同的特性17 3.2.三种不同的FOF组合构建18 3.2.1.进攻型FOF:样本内和样本外多头组合的条件收益高,但组合波动大20 3.2.2.防守型FOF:样本外组合的条件收益较样本内更显著,最大回撤小20 3.2.3.全能型FOF:样本内和样本外的夏普比高且稳定,条件收益无差别21 4.总结与展望22 5.风险提示22 图表目录 图表1:近年来私募基金产品发行呈大规模增长,多数为股票策略5 图表2:量化产品新发数量逐年增加5 图表3:管理人间业绩分化显著(500指增超额为例)5 图表4:整体选基因子的流程6 图表5:产品筛选和因子回测细节7 图表6:基金池的产品个数在21年到达高峰7 图表7:经MAD缩尾处理后的年化超额收益分布整体无太大差别,极端值更少7 图表8:四大类指标汇总一览8 图表9:捕获率、盈利期数、高价矩的RankIC均值均在阈值之上9 图表10:上行收益率分层自20年起显著10 图表11:�五组的多头组合超额相对稳定10 图表10:最大连续涨幅的�五组没有明显的区分能力10 图表11:上行收益率和最大连续涨幅的超额呈强相关10 图表14:偏度的分层效果不单调,�五组超额不稳定11 图表15:峰度的理论最优�一组表现较差11 图表16:整体风险类因子的IC分布均无法通过筛选条件,不具备选基能力11 图表17:收益波动矫正、Beta矫正和低偏矩均通过IC测试12 图表18:信息比率的分层效果显著,组别间单调12 图表19:夏普比率的分层20年后效果逐渐有效12 图表20:IR和Sharpe�五组的多头超额13 图表21:上涨行情中IR比Sharpe筛选更稳定13 图表22:詹森比率�五组显著,但组别不单调13 图表23:特雷诺比率�五组无区分程度13 图表24:Omega比率分层不单调14 图表25:索丁诺比率分层不单调14 图表26:Kappa3比率分层不单调14 图表27:三指标的�五组与�一组间收益差距小14 图表28:已实现、择时能力和选股能力均通过了IC测试15 图表29:已实现Alpha的�五组显著15 图表30:已实现Beta的分层效果不佳15 图表31:Timing_H_M的区分能力弱,五组分层混乱16 图表32:�五组和�一组的收益差小,且波动大16 图表33:Selection_T_M�四组表现好,分层混乱17 图表34:Selection_C_L的分层更不显著17 图表35:通过筛选后的单因子IC表现及多头组合的统计信息18 图表36:多头组合的超额净值呈现不同特性18 图表37:各指标间的相关系数在0.5左右18 图表38:因子合成的方式及判断条件19 图表39:FOF组合的回测细节19 图表40:进攻型选基因子的分组测试结果(十组)20 图表41:进攻型FOF组合分年绩效统计:超额收益较为激进,组合波动较大,市场上涨时超额更显著20 图表42:防守型选基因子的分组测试结果(十组)21 图表43:防守型FOF组合分年绩效统计:组合最大回撤小,条件超额在市场下跌时显著21 图表44:全能型选基因子的分组测试结果(十组)22 图表45:全能型FOF组合分年绩效统计:样本内和样本外多头组合的夏普比高且稳定22 1.何为多因子选基? 1.1.优选私募基金产品难度加大 近年来,证券投资类私募基金发展迅猛,不同私募基金产品的发行数量和发行种类不断增加。根据通联数据库显示,截至2022年底,现市面上存续的私募证券投资基金产品 共147843只,以2022年为例,全市场证券投资基金新增产品24812只,比2010年末数量增长达886倍,分策略来看的话,股票策略的增发速度逐年递增,2021年达到高峰的18580只。 图表1:近年来私募基金产品发行呈大规模增长,多数为股票策略 资料来源:通联数据库,东证衍生品研究院 其中量化私募产品的新增数量自2014年以来逐年增加,规模增长迅速。根据中基协数 据,2021年新备案的量化基金共7589只,募集约1383.27亿元,较2019年当年增长4.27 倍,与此同时,量化私募基金产品间的业绩分化逐渐加大,我们右下图分别对中证500指增产品的季度超额收益进行统计, 图表2:量化产品新发数量逐年增加图表3:管理人间业绩分化显著(500指增超额为例) 资料来源:通联数据,东证衍生品研究院资料来源:通联数据,东证衍生品研究院 样本区间为2017年至2022年末,季度对全市场500指增超额收益从小到大排序,�一组对应的是季度表现最差的一组,�五组对应的是季度表现最好的一组,组内求平均。从统计结果来看,�五组的超额累计收益约为�一组的10.93倍,不同管理人间的业绩差异较大。因此如何在逐渐增加的私募基金池中,挑选出具备良好收益的私募基金产品及私募基金管理人,是FOF投资中的关键一环。 1.2.多因子体系是系统化的选基方式 自APT的无风险套利假说起,多因子体系早已在股票投资中被广泛应用。现代的金融理论认为,资产的预期收益率是对资产持有者所承担风险的补偿,多因子模型将上述理论通过线性的定量表达式呈现,其刻画了单个因子值(风险类别)和资产在每个因子上的因子载荷(风险敞口),其一般表达式如下, ri K i1 Xi,kfkεi 其中X是资产i在因子k上的因子暴露,f即为因子k的因子收益,epsilon为资产i未被解释的残差收益。若因子对资产收益率的解释程度越高,则该因子具备一定的预测能力,此多因子体系已在选股中完善。 现市面上将该多因子体系纳入选基金产品中,均用于公募基金的场景下。由于底层数据标准不统一、行业变换过快和监管要求不一等原因,私募的多因子选基依旧是空白期。单纯地对全市场私募产品从定性尽调的角度筛选是不现实的,FOF投资必定是定性与定量相辅相成,因此我们希望借鉴成熟的股票多因子体系,在本文定量地探讨基于私募产品历史信息,哪些维度的指标对基金后续表现具备预测意义?哪些指标能够解释截面上不同基金产品的收益差异? 整体的思路与多因子投资并无二致,但由于基金与权益资产天然的差异,因此我们本文在私募净值预处理、基金特征因子处理、单因子测试等框架做了针对性的调整和处理,最终的流程如下图所示, 图表4:整体选基因子的流程 基金数据预处理 单因子测试及逻辑 大类因子合成 FOF组合构建 业绩可回溯一年 各管理人代表产品 复权后净值数据 收益率去极值 以净值日期矫正时间戳 构造不同大类因子 去极值、截面标准化 不同目标收益的RankIC测试 组合分层测试 保留预测能力强的 相关性分析 剔除冗余信息 回归显著性 合成大类因子 经合成后的大类因子有效检验 如何构建更稳健的FOF组合 如何设定持仓年限 如何更好控制组合回撤 其他讨论 资料来源:东证衍生品研究院 2.四大类单因子测试 2.1.基金数据预处理 在上文中提到,量化股票策略为全市场核心,其中更是以中证500指增的关注度最高, 因此作为初篇我们选择中证500指增产品作为研究对象。考虑到大部分私募管理人是围 绕一个核心策略设计产品,因此我们每一家基金管理人只选取一只可回溯业绩最长的产品作为代表进行研究。在下表中我们详细阐述了全市场筛选的条件和后续计算因子的逻辑,截至2022年底,样本内所记录的产品共计102只,入选产品在21年年中达到高峰 的110只,具备足够的产品数量供我们后续截面多因子选基的研究。 图表5:产品筛选和因子回测细节图表6:基金池的产品个数在21年到达高峰 步骤 条件说明 回测区间 2017/01/01-2022/12/31 样本空间 产品类型为私募证券类投资产品成立或者存续一年半以上滚动(一年)稳定披露净值不低于20次产品管理人已备案 调仓周期 每年1、4、7、10月末,根据筛选条件汇总筛选得到基金池,计算选基因子,并在之后的一个交易日调仓 分组数量 5组 交易费率 暂不考虑 资料来源:东证衍生品研究院资料来源:通联数据,东证衍生品研究院 本文我们以指数增强策略举例研究,因此均围绕基金产品的超额收益,考虑到私募行业有不少产品为“打榜”产品,并不能体现真实的产品收益。对此我们将所有基金产品的超额收益在截面上做MAD去极值的缩尾,一是间接剔除打榜,二是方便单因子测试。图表7:经MAD缩尾处理后的年化超额收益分布整体无太大差别,极端值更少 资料来源:通联数据库,东证衍生品研究院 为了更好地评价基金产品,我们收集了市面上常用的定量指标,并将其归类为四大类,分别为收益类、风险类、风险调整类和统计类。因涉及的因子计算过多,不影响阅读的前提下我们隐去计算公式,在下表中罗列了指标名称和参数选择,后续测试前均对因子做截面MAD去极值和截面z-score标准化。 图表8:四大类指标汇总一览 指标名 指标说明 参数选择 收益类 Profit_Days_Rate 盈利期数占比 一个月/三个