│ 随机森林模型在可转债中的应用 作者 分析师:陆豪 证券研究报告 2024年06月02日 ——量化可转债研究(二) 随机森林模型介绍 随机森林是一种基于多个决策树的集成学习技术,它通过构建多个决策树并将它们的预测结果集成起来,随机森林模型的核心思想是通过构建多个决策树模型,并将它们组合起来进行预测。随机森林模型因其出色的准确性和适应性,在量化分析和金融领域中具有极高的应用价值。随着相关技术的不断进步和完善,随机森林有望在未来的金融市场分析中发挥更大的作用。 因子选择 随机森林模型对单因子影响力要求较高,我们通过IC作为单因子进行测试标准,筛选排名靠前的因子用作以后续模型拟合。 参数敏感性分析 随机森林模型具有大量的参数,每个参数的调整都会影响模型的复杂度、预测能力和计算效率,我们通过样本内10折交互验证、网格搜寻等方法,确定参数在样本内对模型准确率的影响,最终选定定包括树棵数、叶节点最小样本数、树最大深度等参数取值。 持仓选定 随机森林分类器输出一个二项分布的结果,并不能直接作为投资决策的依据,经测试,我们发现投票排名越高的标的,其模型预测的准确性越高,于是根据这一发现,我们通过每期投票比例选定最终持仓。 样本外测试 模型在样本外表现优异,测试区间内收益12.86%,相对基准超额收益14.50%,费后收益约10%,年化收益率达到26.64%,大幅跑赢业绩基准。周胜率59.26%月胜率80%,夏普率2.28,最大回撤-4.21%。 因子影响力 随机森林模型可以有效评估因子的影响力,在我们最终确定的模型中,涨跌幅均值、价格偏度、换手率等相关因子对模型影响力较强,二叉树模型定价相关因子对随机森林模型影响力较弱。 模型评价 随机森林模型具有强大的泛化能力,能有效处理包括高维数据和缺失数据在内的复杂数据类型,并且其作用方式易于理解,类似于传统的投资决策过程其缺点在于对模型收益率不敏感,且模型复杂性和计算成本较高。 执业证书编号:S0590523070001邮箱:luhao@glsc.com.cn 分析师:康作宁 执业证书编号:S0590524010003邮箱:kangzn@glsc.com.cn 分析师:陈阅川 执业证书编号:S0590524050004邮箱:chenyc@glsc.com.cn 金融工程 金融工程专题 风险提示:报告基于历史数据得到的结论,历史回测结果不代表未来。未来市场可能发生变化,因子有效性变化可能导致策略失效。 相关报告 1、《永赢中证沪深港黄金产业股票ETF投资价值分析:——放大黄金上行弹性》2024.06.01 2、《量化公募基金池:持仓分散,交易活跃,超额收益持续》2024.05.22 正文目录 1.随机森林模型简介3 1.1决策树3 1.2随机森林5 2.样本选定7 2.1数据获取7 2.2特征和标签提取7 2.3特征预处理7 2.4训练集合交叉验证集合成7 2.5交叉验证调参7 2.6样本外测试8 2.7模型评价8 3.因子选择9 3.1随机森林因子选择9 4.随机森林模型构建10 4.1参数敏感性分析10 4.2模型选定12 4.3样本外实际组合模拟13 5.模型评价15 5.1因子影响力15 5.2可转债随机森林模型评价16 6.风险提示18 图表目录 图表1:决策树数据集部分样本举例4 图表2:完整的决策树示例5 图表3:随机森林作用示意图6 图表4:转债因子列表9 图表5:树棵数与折交互验准确率10 图表6:网格搜索交叉验证集结果11 图表7:网格搜索样本外测试集结果12 图表8:topNri样本模型预测准确性13 图表9:样本外组合测试结果14 图表10:模型因子影响力15 1.随机森林模型简介 随机森林模型是机器学习领域中一种重要且广泛应用的集成学习方法。它的起源可以追溯到上世纪90年代,由TinKamHo和LeoBreiman等学者提出。随机森林模型的发展得益于决策树算法的基础,并在此基础上做了进一步的改进与创新。目前,随机森林模型已经成为许多实际问题的首选解决方案,并在数据挖掘、图像识别、自然语言处理等领域展现出强大的能力。 随机森林模型的核心思想是通过构建多个决策树模型,并将它们组合起来进行预测。在构建每棵决策树时,随机森林模型通过随机选择特征子集,减少特征的相关性,进而提高模型的泛化能力。每棵决策树的预测结果由所有决策树的结果加权得到,从而达到集成学习的效果。 总的来说,随机森林模型的发展经历了不断的改进和优化,成为了机器学习领域中一种重要且强大的集成学习方法。它的应用范围广泛且可靠,为解决实际问题提供了有力的工具和技术支持。随着技术的进一步演进和发展,相信随机森林模型仍将在未来的机器学习研究和应用中发挥重要作用。 下面,我们从决策树开始,探索随机森林在可转债领域的应用。 1.1决策树 日常生活中,我们对于事物的认知都是基于特征的判断与分类,譬如通过胎生与否可判断哺乳动物,根据肚脐尖圆来挑选螃蟹公母。决策树就是采用这样的思想,基于多个特征进行分类决策。在树的每个结点处,根据特征的表现通过某种规则分裂出下一层的叶子节点,终端的叶子节点即为最终的分类结果。 1.1.1决策树的构造过程如下 1.选择最佳特征:选择一个特征作为根节点,使得数据在这个特征上划分后的信息增益最大。 2.数据划分:根据选定的特征将数据集划分成子集。 3.递归构造子树:对每个子集重复上述过程,直到满足停止条件(如树的最大深度、每个节点的最小样本数等)。 1.1.2决策树举例 假设我们有一组数据,包含4个特征:市场情绪(乐观、悲观)、公司财报(好、差)、行业趋势(上升、下降)和交易量(高、低)。目标是预测股票在下一个交易日是否会上涨(是、否)。以下是数据集的部分样本: 图表1:决策树数据集部分样本举例 市场情绪 公司财报 行业趋势 交易量 股票上涨 乐观 好 上升 高 是 乐观差下降低否 悲观 好 上升 高 是 悲观好下降低否 悲观 差 下降 高 否 乐观好下降高否 乐观 差 上升 低 否 悲观好上升低是 资料来源:国联证券研究所整理 决策树构造步骤: 1.选择最佳特征 -使用信息增益或基尼指数来选择最佳特征。在本例中,我们使用信息增益。 -计算各个特征的信息增益。例如,计算市场情绪的信息增益。计算样本集的熵(Entropy): � 𝐻(𝐷)=−∑𝑝𝑖𝑙𝑜𝑔2(𝑝𝑖) 𝑖=1 其中,𝑝�是类别i的概率。 计算特征“市场情绪”的条件熵: 𝐻(𝐷|市场情绪)=∑ 𝑣∈[乐观,悲观] |𝐷𝑣| |𝐷|𝐻(𝐷𝑣) 然后计算信息增益: 𝐺𝑎𝑖𝑛(𝐷,市场情绪)=H(D)−H(D|市场情绪) 2.数据划分 -选择信息增益最大的特征进行划分,例如假设“市场情绪”是最佳特征。 -根据“市场情绪”将数据集分成两个子集:乐观、悲观。 3.递归构造子树 -对每个子集,重复上述过程,选择新的最佳特征进行进一步划分。例如,对于“悲观”这个子集,可能选择“公司财报”作为下一个最佳特征。 图表2:完整的决策树示例 资料来源:国联证券研究所整理 1.2随机森林 1.2.1随机森林模型的基本原理 随机森林是一种集成学习方法,它通过构建多个决策树并将它们的结果进行投票或平均,以得到最终的预测。这种方法的主要优点是,通过集成多个模型,随机森林有高准确性、抗过拟合、并能提供特征重要性评估等优点,它在处理高维度数据、数据中存在较多噪声时有较为优异的表现 随机森林模型的建模过程和关键参数。随机森林的建模过程主要包括以下步骤: 步骤一:从原始数据集中使用自助采样法(bootstrapsampling)抽取样本,形成多个子数据集。 步骤二:对每个子数据集,构建一个决策树。在每个节点,随机选择一部分特征进行分裂。 步骤三:重复以上步骤,直到生成指定数量的决策树。 图表3:随机森林作用示意图 资料来源:国联证券研究所整理 因此,随机森林的关键参数主要包括: 树的数量:决策树的数量越多,模型的性能通常越好,但计算成本也会相应增加。随机选择的特征数量:在每个节点进行分裂时,随机选择的特征数量。通常,随 机选取的特征数量等于总特征数量的平方根或对数值。一般来说,特征数量的选择会影响模型的偏差和方差。 1.2.2随机森林模型的内在机理 随机森林的内在机理主要体现在其随机性和集成性。随机性来自于样本随机和特征随机,这使得每个决策树都有所不同,增加了模型的多样性。集成性则体现在通过投票或平均的方式,将多个决策树的预测结果结合起来,这可以有效地降低模型的方差,提高模型的稳定性和准确性。要让随机森林做出准确的预测,我们需要提供有用的信息,并且确保森林里的每棵小树都能独立地给出自己的看法。这样,当它们一起做决定时,我们就能得到一个既准确又可靠的答案。 此外,随机森林还具有一定程度的可解释性,可以通过特征重要性来解释模型的预测结果。这些特性使得随机森林在许多实际问题中都有很好的应用效果。 2.样本选定 2.1数据获取 1)上交所、深交所未停牌公募可转债,剔除当日剩余规模在1.5亿以下的转债 2)样本内训练区间:2019年1月1日至2023年11月12日 3)样本外测试区间:2023年11月13日至2024年5月20日 2.2特征和标签提取 1)每周最后一个交易日,计算因子暴露度,作为样本的原始特征 2)计算到下一周的超额收益(基准为当期所有转债绝对收益等权平均值),作为样本的标签,进行分类。超额收益为正记为1,超额收益为负记为-1 2.3特征预处理 1)标准化:对每个截面因子取z-score:𝑦� =𝑥𝑖−𝑥̅ � 1)缺失值处理:随机森林本身可以处理缺失值,将所有缺失因子打上标签归为一类即可 3.4训练集合交叉验证集合成 1)训练集:2019年1月1日至2023年11月12日 2)采用10折交互验证方法或每次随机选取90%的样本作为训练集,余下10%的样本作为交叉验证集,如上重复10次。 3.5交叉验证调参 1)提供样本内交叉验证得到平均的预测准确率,选取准确率最高的一组参数作为最优参数 3.6样本外测试 1)确定最优参数后,在样本外,以每周最后一个交易日得到的特征作为模型输入,得到每个样本当周因子得分,选取得分最高的topN组合构建策略,以下一个交易日收盘价为调仓价格,进行策略测试 3.7模型评价 1)评价指标包括两方面,一是测试集的正确率、AUC等衡量模型性能的指标;二是上一步中构建的策略组合的各项表现(包括年化超额收益率、信息比率等等)。 2)基准参考同期所有池中可转债等权收益率构建 4.因子选择 4.1随机森林因子选择 由于单因子对于随机森林模型的影响较大,在模型因子选择上,我们采用因子IC 作为筛选标准。 在测试区间内,在转债大类因子库中选取截面因子IC均值在2.5%以上的因子作为模型因子拟合。 以下为选定因子列表: 图表4:转债因子列表 序号 因子名称 因子释义 IC 序号 因子名称因子释义 IC 1 iv 隐含波动率 7.12% 25 ivDiffZ240隐波差的1Y时序ZSCORE 3.41% 2 doubleLowZ120 双低的6M时序ZSCORE 6.56% 26 chgDiff120dZ240近120日转债正股涨跌幅之差的1Y时序ZSCORE 3.36% 3 ivDiff 隐波差 6.36% 27 puredebtPremRatio(转债价格纯债价值)*100/纯债价值 -3.31% 4 doubleLowZ240 双低的1Y时序ZSCORE 6.06% 28 ivDiffZ120隐波差的6M时序ZSCORE 3.30% 5 ivZ120 隐波的6M时序ZSCORE 6.02% 29 priceSkew60d近60日价格偏度 3.27% 6 bsBias BS定价偏离度 5.86% 30 riskPrem纯债溢价率