目前,机器学习模型在资产配置等其他领域的定价研究相对偏少,传统的资产配置方法也需要新的思路来构建策略。本次研究中,我们将机器学习模型应用到大类资产配置问题上,基于因子投资的思路使用模型给出各资产的打分排序,并最终构建可投资的大类资产月频量化配置策略。 怎样使用机器学习选择大类资产? 我们使用机器学习模型生成每一期各资产的预期收益率数据,便于进行资产的排序与进一步优化。我们选取各资产对应指数或期货的高开低收作为初始数据,基于TA-Lib方法批量化生成量价因子数据作为样本的特征,并使用各资产未来20日收益率作为基础标签。模型的选取方面,考虑到树模型在小样本上相较于神经网络更不易过拟合的优势,我们主要使用基于CART的集成学习方法,包括GBDT、RF和DART,具体实现模型主要为XGBoost与LightGBM。 数据准备及预处理 我们选择沪深300、恒生指数、纳斯达克100指数、国债指数、SHFE黄金等共11种资产作为配置池,覆盖国内股票、国外股票、债券与商品类资产,并基于这些资产的高开低收数据生成共154个量价类特征。我们对特征首先进行时序预处理,确保特征在不同资产之间具有可比性;随后进行截面预处理,此处我们试图通过对比找出最适合的预处理方式。对标签同样进行不同预处理方式的对比,以寻找最优方案。模型我们对比使用GBDT、RF和DART作为提升方法的LightGBM模型以及使用GBDT的XGBoost方法。 如何优化模型在大类资产配置上的应用表现? 我们根据不同的特征处理、标签处理和模型三个维度分别进行测试。通过观察基于lgb_gbdt和lgb_dart模型得到的结果,我们确定特征在截面上做MinMax处理的方法优势最为明显;但不同的标签预处理方式在结合CSMinMax处理时各有优势。结合不同模型来看,对标签进行截面Z-Score处理时普遍能得到最佳的因子多头收益表现。模型上,基于GBDT和DART的LightGBM模型在对应的效果最佳。 基于以上方法得到的两个因子具有较高的相关性,但其中使用DART的LightGBM模型得到的因子IC衰减相对更慢,我们认为这对于降低策略的换手率能带来一定帮助,对资产配置策略较为重要。最终我们确定特征处理方式为CSMinMax,标签处理方式为ret_CSZScore,使用模型lgb_dart生成全球大类资产配置因子。 因子IC均值达到9.00%,多头年化收益13.34%,多头Sharpe比率1.105,多头最大回撤8.53%;多空年化收益率15.20%,多空Sharpe比率1.231。时序上看,因子多空组合净值稳定增长,仅部分月份回撤较大。 人工智能全球大类资产配置策略 我们根据最终的合成因子构造资产配置策略,每月初等权配置因子排名前3的资产,手续费取千分之三。我们以11个资产的等权配置策略作为对比基准。策略的年化收益率为16.91%,夏普比率为0.99,而同时间段等权配置策略的年化收益率为2.05%,夏普比率为0.24。策略的年化超额收益率为14.74%,信息比率为1.34,超额最大回撤仅为5.97%。我们同样叠加最优化问题的求解方法,对策略的波动率做进一步约束。优化后,策略的年化收益率在7.86%,年化超额收益4.70%,策略的Sharpe比率上升到1.28,年化双边换手率下降到288.68%。 风险提示 以上结果通过历史数据统计、建模和测算完成,在政策、市场环境发生变化时模型存在时效的风险。策略通过一定的假设通过历史数据回测得到,当交易成本提高或其他条件改变时,可能导致策略收益下降甚至出现亏损。 内容目录 一、怎样使用机器学习选择大类资产?4 1.1为何使用因子投资的方法?4 1.2从数据到模型,如何匹配因子框架?4 1.3基于CART算法与集成学习的树模型5 二、数据准备及预处理6 2.1原始数据6 2.2特征预处理方法9 2.3标签预处理方法10 2.4模型详细设置10 三、如何优化模型在大类资产配置上的应用表现?10 3.1优化数据处理方式对因子效果的影响10 3.2优化模型选取对因子结果的影响12 3.3因子相关性及衰减测试13 3.4全球大类资产配置因子13 四、人工智能全球大类资产配置策略14 4.1策略结果14 4.2低波动优化策略16 总结18 风险提示18 图表目录 图表1:树模型与神经网络结构对比5 图表2:集成学习方法对比6 图表3:大类资产名单6 图表4:数据集划分区间7 图表5:大类资产历史净值走势(国内股票)7 图表6:大类资产历史净值走势(海外股票)7 图表7:大类资产历史净值走势(债券)7 图表8:大类资产历史净值走势(商品)7 图表9:大类资产历史净值指标8 图表10:大类资产历史收益率相关系数矩阵8 图表11:大类资产等权配置策略净值9 图表12:大类资产等权配置策略指标9 图表13:用于测试的模型信息10 图表14:基于不同特征处理与标签处理方式得到的各项指标(lgb_gbdt)10 图表15:基于不同特征处理与标签处理方式得到的各项指标(lgb_dart)11 图表16:基于不同模型得到的各项指标(CSMinMax)12 图表17:lgb_gbdt与lgb_dart在CSMinMax特征处理下各因子相关系数13 图表18:表现最佳因子IC均值衰减13 图表19:全球大类资产配置因子指标14 图表20:全球大类资产配置因子分位数组合净值14 图表21:全球大类资产配置因子多空组合14 图表22:全球大类资产配置策略净值14 图表23:全球大类资产配置策略分年度收益15 图表24:全球大类资产配置策略指标15 图表25:全球大类资产配置策略历史权重15 图表26:不同参数下策略年化收益率16 图表27:不同参数下策略Sharpe比率16 图表28:不同参数下策略最大回撤率16 图表29:全球大类资产配置策略(波动约束)净值17 图表30:全球大类资产配置策略(波动约束)指标17 图表31:全球大类资产配置策略(波动约束)历史权重17 一、怎样使用机器学习选择大类资产? 目前,机器学习模型在量化投资方面已得到广泛应用。各类机器学习算法能够借助其巧妙的模型设计有效挖掘到资产特征间的非线性关系,进行各类因子合成或生成的任务,进而形成有效的量化策略。各类机器学习模型在股票标的上的应用研究最为广泛,原因在于模型需要基于大规模样本进行训练后才能具备较强的泛化能力,而股票市场正好拥有丰富的量价、基本面与另类数据,适合用于训练模型。相比之下,机器学习在资产配置等其他领域的定价研究较少,但并不代表模型无法应用到这些领域上来。 本次研究中,我们将机器学习模型应用到大类资产配置问题上,基于因子投资的思路使用模型给出各资产的打分排序,并最终构建可投资的大类资产月频量化配置策略,以期获得较稳定的策略收益。过程中,我们还将探索比较不同类模型、不同数据处理方式等对 模型效果的具体影响。 1.1为何使用因子投资的方法? 传统的大类资产配置策略主要分为两个步骤:基于宏观指标对每个资产给出偏择时的观点,再通过求解优化问题或主观设定的打分机制给出资产的配置权重。整个配置的模型流程较长,同时每个步骤中也存在较多问题难以处理。 传统方法来说,投资者一般会使用到CPI、利率等宏观指标或商品价格等数据,思路是基于主观逻辑使用宏观指标进行打分,或者复杂一些的会使用隐马尔可夫等模型构造宏观指标到大类资产的映射,以此生成指标体系对资产走势的判断观点。这类方法一般偏向于生成择时观点,较难进行截面上资产之间的比较,但有时在配置时我们更期望进行资产之间的比较;此外指标存在频率不一的问题,统一频率后可能影响原始数据的信息量。而在以上模型给出观点的基础上,还需要通过求解优化问题或人为设定映射函数的方法得到最后的配置权重。但优化方法对目标函数、输入的预期与协方差等系数高度敏感,也无法平衡不同资产之间存在较大差异的风险收益特征,容易给出极端权重,结果不稳定;人为设定映射函数的方法则无法最大化利用数据信息,难以进行策略效果上的优化。 因此,我们急需新的思路来实现资产的筛选与配置。因子投资的框架可以一定程度解决上述问题。譬如,我们可以完整地得到每个资产在每期的因子得分,得分在不同资产之间具有可比性,允许我们直接进行资产的排序,不需要再构造因子到资产的映射来进行比较;我们也能对因子进行回测,快速对比不同因子的有效性,方便进行策略的优化。 结合机器学习方法,我们能够进一步剔除主观经验对策略的影响,期望得到更加有效的资产配置策略。 1.2从数据到模型,如何匹配因子框架?1)、数据特征 我们使用大类资产的价格数据作为原始信息。传统的大类资产配置策略会基于CPI、利率等宏观指标或商品价格等数据进行判断,但指标多数偏低频且存在频率不一的问题,难以生成因子来对资产进行截面上的比较。因此,我们将目光放到大类资产本身的价格上来,各资产均能找到相对应的指数标的,支持我们使用指数的高开低收数据来构建量价因子,扩展样本的特征维度。基于这些量价因子,模型能够捕捉更多指数长短期走势及其变化上的规律,增强其预测能力。 目前有许多较成熟的量价因子批量计算工具,支持我们快速生成一系列特征,譬如TA-Lib、Alpha158等,可以有效扩充样本维度。本次研究我们选择TA-Lib来进行数据计算。 2)、数据标签 我们使用未来20日的指数收益率作为初始标签。考虑到资产配置实务中,在不同资产之间切换的周期较长,调仓观点应当也以一个较慢的频率给出;同时,大类资产的指数走势相对更加稳定,并不需要给出过于高频的观点。我们希望能给出月频调仓的策略,因此使用未来20日的收益率作为初始标签。 细节上面,由于各个市场的节假日等规则不同,资产之间在截面上有时无法对齐。为了保证标签的合理性与可投资性,我们假设策略按照该资产未来第一个交易日的收盘价买入,持有20天后以收盘价卖出,以此计算收益率标签。 3)、模型选择 模型层面,我们最终选择树模型进行预测。基于树的算法可以处理特征与标签之间的非线性关系,且相对神经网络来说一般在表格类数据上会有更好的表现,更重要的是树模型在 小样本训练上更不容易出现过拟合。 图表1:树模型与神经网络结构对比 来源:国金证券研究所 从原理上来说,树模型有以下优势帮助其更不容易出现过拟合: a、结构简单。树模型通过分支做决策,结构更简单、参数量更低。 b、可解释性强。树模型直接习得显式规则,决策更透明且有助于配合剪枝策略修正过拟合部分。 c、分布适应性。树模型能够更好地适应样本的分布,避免受到数据中的噪声影响,且更不容易受到极端值的影响。 机器学习应用于大类资产配置的首要问题就在于数据量上的限制。考虑到资产配置的标的数量偏少,日频下训练集的总量可能只在一两万这个数量级,同时资产配置并不需要非常高频的观点,预测频率进一步缩小了样本的数量。在使用小样本进行训练时,神经网络模型更易出现过拟合的现象,而基于树的算法更容易训练出泛化性能较好的模型。因此,我们选择决策树及其各类衍生算法来训练。 1.3基于CART算法与集成学习的树模型 决策树是一类目前在应用中受到广泛欢迎的机器学习模型。树模型试图从训练数据集中归纳出一组分类规则,实际上也是通过训练数据集估计条件概率模型,从划分特征空间得到的条件概率模型中选择出能较好拟合训练数据的模型,但同时需要防止模型过度贴近训练数据出现过拟合,确保其在未知数据集上有同样的泛化能力。为了在训练过程中减少过拟合现象,决策树模型普遍会使用剪枝操作,包括控制树的深度、叶子节点数量等预剪枝方法,以及代价复杂度剪枝(CCP)、错误率减低剪枝(REP)等方法进行后剪枝。树的具体生成方式也可分为level-wise与leaf-wise两类,分别强调生成树模型时的计算效率与计算代价。 决策树具体算法中,CART(ClassificationandRegressionTree)算法既可用于分类任务,也可用于回归任务。CART回归树使用均