个股Alpha因子聚合到指数的方法探究 前期构建的AI选股框架中,我们以GBDT和NN两类模型分别针对不同类型特征数据集所得到的模型在不同宽基指数上都有较强的预测效果。为贴近市场规律,对模型重新进行周度预测训练后,经过中性化的因子样本外IC均值为11.49%,多头年化超额49.24%,多头超额最大回撤3.73%。 在个股Alpha因子聚合到指数的过程中,我们探讨尝试了是否针对因子进行中性化以及个股因子的不同加权方式比较。最终发现,由于指数最终的收益走势直接由其成分股权重决定,使用该权重进行聚合天然有相对较高的稳定收益。而在因子中性化的问题上,由于个股alpha因子中会蕴含一部分行业、市值等因素的beta,若将因子中性化后再聚合将使这部分信息损失,进而难以获取有效的指数层面因子,因此使用原始的Alpha因子更符合逻辑。在不区分指数类型的情况下,因子的IC均值为11.68%,多头年化超额为35.97%,多头超额最大回撤为14.51%。由于指数本质相当于买入了一篮子股票,部分个股因子Alpha可能会在聚合过程中相互抵消,进而削弱了指数因子的轮动效果。但因子整体依然具有显著的超额收益,考虑扣费后,相较于所有指数等权作为基准,轮动策略年化超额15.27%,超额最大回撤17.60%。 人工智能ETF轮动策略效果测试 进一步考虑,若希望通过ETF构建宽基指数轮动,行业主题轮动或概念风格轮动使用该方法是否可行,我们将上述因子在三类指数中分别进行测试。发现虽然规模类宽基指数数量相对较小,但因子IC均值依然保持在一定水平,只是年化超额收益有所削弱。而因子在行业主题类指数中在几乎同样的回撤之下获得了27%左右的年化超额,说明在保证一定截面宽度的情况下,使用此类方法进行行业主题轮动依然有效。 最终,我们考虑策略的实际可投资性,在每个指数在当期所有对应ETF中筛选出规模最大的一只作为最终的投资标的。得到的人工智能ETF轮动策略相较于等权基准年化超额17.35%,超额最大回撤11.61%,信息比率1.72,同时相比常见的比较基准均有明显超额,相较于万得偏股混合型基金指数的年化超额收益率达到10.08%。再进一步考虑了投资规模限制、投资ETF数量限制后,策略超额收益依然稳健。 风险提示 1、以上结果通过历史数据统计、建模和测算完成,在政策、市场环境发生变化时模型存在时效的风险。 2、策略通过一定的假设通过历史数据回测得到,当交易成本提高或其他条件改变时,可能导致策略收益下降甚至出现亏损。 内容目录 一、人工智能选股回顾4二、ETF指数投资现状6三、自下而上的人工智能ETF轮动策略构建8 1.聚合92.筛选13 四、TopN人工智能ETF轮动策略16五、总结16风险提示17 图表目录 图表1:GBDT+NN机器学习选股框架4图表2:模型训练细节探讨内容4图表3:模型选用特征数据集4图表4:GBDT+NN沪深300指增策略净值走势(2023年以来)5图表5:GBDT+NN中证500指增策略净值走势(2023年以来)5图表6:GBDT+NN中证1000指增策略走势净值(2023年以来)6图表7:GBDT+NN因子主要指标6图表8:GBDT+NN指增策略主要指标(2015年以来)6图表9:公募FOF持仓中ETF占比变化7图表10:保险FOF持仓中ETF占比变化7图表11:ETF基金指数表现VS主动权益基金表现7图表12:各年份ETF日均成交额变化(单位:亿元)7图表13:上市ETF基金总规模与数量变化8图表14:股票型ETF分类型数量与规模统计(2024年6月)8图表15:自上而下的人工智能ETF轮动策略构建框架9图表16:GBDT+NN因子值全A周度调仓主要指标9图表17:GBDT+NN因子多头超额净值9图表18:筛选有效指数数量变化走势(单位:个)10图表19:筛选有效指数分类占比(单位:只)10图表20:GBDT+NN聚合指数因子主要指标11图表21:GBDT+NN聚合指数因子多头超额净值走势11图表22:各类型指数典型示例11图表23:GBDT+NN聚合指数因子在各类型指数上主要指标12图表24:规模类指数中近期因子排名前三指数12图表25:GBDT+NN指数因子在各类型指数多头超额净值走势12图表26:指数轮动策略净值走势13图表27:指数轮动策略主要指标13 图表28:人工智能ETF轮动策略净值走势14 图表29:人工智能ETF轮动策略主要指标14 图表30:人工智能ETF轮动策略分年度收益情况14 图表31:筛选股票型ETF净资产规模中位数和最小值时序变化(单位:亿元)15 图表32:人工智能ETF轮动策略净值走势(限制规模1亿元以上)15 图表33:人工智能ETF轮动策略主要指标(限制规模1亿元以上)15 图表34:TopN人工智能ETF轮动策略净值走势16 图表35:TopN人工智能ETF轮动策略主要指标16 一、人工智能选股回顾 在之前的研究报告中,我们使用了GBDT和NN两大类模型和两种预测标签分别训练并最终合成,在A股各宽基指数成分股上均有不错的预测效果。两类模型中,我们分别选取了当前最有代表性,在大多数任务中表现最优的模型进行训练,详细算法说明可以参考前期报告《Alpha掘金系列之九:基于多目标、多模型的机器学习指数增强策略》 基本框架如下图所示: 图表1:GBDT+NN机器学习选股框架 来源:国金证券研究所 两类模型分别作为截面和时序模型当下表现最优异的模型算法,GBDT着重进行有效特征的筛选和非线性组合,而NN类模型着重进行时序信息的学习。两类模型预测所得信号相关性相对较低,通过等权合成能进一步增强最终收益稳健性。 在整个模型的训练细节中,我们将特征和标签的数据预处理方式、分域训练、滚动训练方式、分类回归模型的对比和损失函数的修改等问题逐一探讨,发现实际训练的过程中需要根据任务类型、股票池和模型特点进行针对性调整和改进,有助于提升最终因子的收益效果。 图表2:模型训练细节探讨内容来源:国金证券研究所 图表3:模型选用特征数据集 模型类型 数据集类型 特征数量 GBDT(截面模型) Alpha158+GJQuant 271 NN(神经网络) Alpha158 60 来源:Qlib,国金证券研究所 在特征选择层面上,我们根据模型的特性和特征的逻辑进行了分别处理、分别训练的方式。对于变化相对低频、难以通过短时间的变化捕捉其变化信息的基本面类因子,我们仅使用GBDT树模型,此类模型能高效地针对特征进行筛选和非线性合成。而对于几乎每日变化的量价类特征,GBDT和神经网络都可以使用很好地进行组合,从而获取相对具有一定差异性的信号。 在特征数据与处理方面,我们主要使用整体标准化的方案,并且先对特征进行去极值处理,从而排除个别样本对模型最终的影响。 对于股票池的选取,我们针对沪深300、中证500和中证1000分别尝试了域内训练和全A训练两种模式,发现对于特殊股票池,GBDT和NN两类模型展现出了不同的区分效果。 因此针对不同股票池我们进行了区分处理。 对于训练数据的滚动方式,我们分别对比了一次性训练、年度滚动训练和扩展训练三种方式。测试发现,滚动与扩展训练差异不大,而一次性训练在两类模型中表现相对更好。这与模型的过拟合情况与市场环境有很大关系。 在模型的损失函数选取方面,我们对比了回归和分类(交叉熵)两种模型思路,同时对比了MSE、IC和RankIC作为损失函数的区别,最终提出了DART算法相对于GBDT算法能在一定程度上进一步防止过拟合,提升稳定性的效果。 经过近期的跟踪测试,发现模型表现整体符合预期,在主要宽基指数上的超额收益较为稳健。 图表4:GBDT+NN沪深300指增策略净值走势(2023年以来) 1.25 1.154.5 1.14 3.5 1.053 12.5 0.952 0.91.5 1 0.850.5 0.80 GBDT+NN超额净值GBDT+NN指数增强策略 沪深300净值深度报告数据截止日期 来源:Wind,国金证券研究所 图表5:GBDT+NN中证500指增策略净值走势(2023年以来) 1.26 1.15 1.15 1.054 1 0.953 0.9 0.852 0.81 0.75 0.70 GBDT+NN超额净值GBDT+NN指数增强策略 中证500净值深度报告数据截止日期 来源:Wind,国金证券研究所 图表6:GBDT+NN中证1000指增策略走势净值(2023年以来) 1.4181.316 14 1.2121.11018 0.96 4 0.820.70 GBDT+NN超额净值GBDT+NN指数增强策略中证1000净值深度报告数据截止日期 来源:Wind,国金证券研究所 截止到今年5月份,AI选股模型在沪深300、中证500、中证1000上构建的因子IC均值分别为10.63%,10.45%和14.79%。进一步考虑扣费并进行组合优化后得到的指增策略年化超额分别为14.93%,19.08%和31.21%。超额最大回撤分别为2.87%,8.39%和4.33%。 图表7:GBDT+NN因子主要指标 IC均值 多头年化超额 多空年化收益率 沪深300 10.63% 18.74% 38.88% 中证500 10.45% 12.99% 38.36% 中证1000 14.79% 23.69% 69.93% 来源:Wind,国金证券研究所 策略经过今年1、2月份的微盘股震荡后,虽出现短暂净值波动,但并未触达历史以来最大超额回撤,策略稳定性在一定程度上得到检验。 图表8:GBDT+NN指增策略主要指标(2015年以来) 年化超额 信息比率 跟踪误差 超额最大回撤 沪深300 14.93% 3.67 4.07% 2.87% 中证500 19.08% 3.68 5.19% 8.39% 中证1000 31.21% 5.17 6.04% 4.33% 来源:Wind,国金证券研究所 二、ETF指数投资现状 相比于直接投资个股,投资ETF具有多种优势: 投资门槛相对较低,不同于个股受到股价限制,ETF的单位净值相对较低,所需起投资金也相对较低。 风险相对较低,由于ETF收益背后是一篮子股票收益的汇总,单个股票的价格波动对ETF影响有限,有效分散了个股的风险。 ETF管理费用、交易费率相对较低,大部分ETF成交也较为活跃,更低的交易成本有助于实现收益稳健的投资策略。 图表9:公募FOF持仓中ETF占比变化图表10:保险FOF持仓中ETF占比变化 10.00% 9.00% 8.00% 7.00% 6.00% 5.00% 4.00% 3.00% 2.00% 1.00% 0.00% 10.00% 9.00% 8.00% 7.00% 6.00% 5.00% 4.00% 3.00% 2.00% 1.00% 0.00% 来源:Wind,国金证券研究所来源:Wind,国金证券研究所 首先我们统计了机构FOF产品的ETF投资情况,发现公募FOF持仓中,ETF占比逐年攀升,而根据我们估算的ETF的持有人结构中保险公司持仓占比在2023年也大幅增加,可以看出ETF投资越来越受到专业机构投资者的青睐。 图表11:ETF基金指数表现VS主动权益基金表现图表12:各年份ETF日均成交额变化(单位:亿元) 70.00% 2020年2021年2022年2 2024年 年 023 60.00% 50.00% 40.00% 30.00% 20.00% 10.00% 0.00% -10.00% -20.00% -30.00% ETF指数偏股混合型基金指数普通股票型基金指数 1200 1000 800 600 400 200 0 2018年2019年2020年2021年2022年2023年2024年 来源:Wind,国金证券研究所来源:Wind,国金证券研究所 从ETF基金的表现来看,近年来ETF的表现已