您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国金证券]:Alpha掘金系列之十四:GBDT+NN机器学习可转债择券策略 - 发现报告
当前位置:首页/其他报告/报告详情/

Alpha掘金系列之十四:GBDT+NN机器学习可转债择券策略

2025-01-08高智威、许坤圣、王小康国金证券李***
Alpha掘金系列之十四:GBDT+NN机器学习可转债择券策略

神经网络模型——以GRU为代表的优化探索 对于GRU模型,我们发现利用日度K线和转债的三种溢价率作为输入,可以取得最好的效果。为了提升模型的多头表现,我们尝试使用专注于多头的损失函数,但效果不佳,反而导致信息比率和多空指标下滑。为应对训练样本不足的问题,我们引入了数据增强策略,尤其在2022年之前的数据上取得了显著成效。然而,在数据充足的2022年之后,使用原始数据反而更能适应市场变化。通过这一模型调整,GRU模型在多头和多空上的表现均有所提升,这表明数据增强在数据量较少的情况下对于提升模型性能是有效的。 决策树模型——以LGBM为代表的优化探索 对于LGBM模型,我们将转债和正股的Alpha158因子,以及一组手工构建的12个因子作为输入,以提供多样化的因子视角。结果显示,转债和正股的Alpha158因子的组合在LGBM模型中实现了最佳的多头表现,而手工构建的因子表现不佳,可能需要进一步的因子扩充来满足模型需求。 机器学习转债择券策略 GRU模型与LGBM模型训练得到的因子相关性较低,仅为0.35,因此我们将两者等权合成得到机器学习转债择券因子 (ML因子)。ML因子在全部转债上IC均值为9.71%,5分组多头年化收益率为22.80%,多空年化收益率31.83%;在偏股/平衡/偏债型转债上IC均值为8.41%/9.42%/8.90%,多头年化收益率为28.36%/18.99%/15.32%,多空年化收益率39.04%/25.41%/20.04%。进一步考虑扣费和换手率缓冲,使用20%的转债,相对中证转债指数构建机器学习转债择券策略,该策略在全部转债上年化收益率14.59%,跟踪误差5.18%,信息比率2.23,超额最大回撤4.24%;在偏股/平衡/偏债型转债上年化收益率分别为20.77%/11.11%/9.09%,信息比率分别为1.44/1.64/0.90。 风险提示 1、以上结果通过历史数据统计、建模和测算完成,在政策、市场环境发生变化时模型存在时效的风险。 2、策略通过一定的假设通过历史数据回测得到,当交易成本提高或其他条件改变时,可能导致策略收益下降甚至出现亏损。 内容目录 一、传统可转债择券因子效果不佳5 二、神经网络模型——以GRU为代表的优化探索5 2.1增量信息的影响5 2.2专注多头的损失函数尝试7 2.3数据增强有效缓解极端分布8 三、决策树模型——以LGBM为代表的优化探索11 四、机器学习转债择券策略13 4.1GRU与LGBM因子合成13 4.2机器学习转债择券因子检验14 4.3机器学习转债择券策略16 总结19 风险提示19 图表目录 图表1:可转债数量变化5 图表2:GRU模型数据集6 图表3:GRU模型增量信息统计数据6 图表4:GRU模型增量信息多头净值6 图表5:GRU模型增量信息多头超额净值6 图表6:GRU模型增量信息多空净值7 图表7:GRU模型增量信息分组年化超额7 图表8:GRU模型多头损失统计数据7 图表9:GRU模型多头损失多头净值7 图表10:GRU模型多头损失多头超额净值7 图表11:GRU模型多头损失多空净值8 图表12:GRU模型多头损失分组年化超额8 图表13:可转债分年度训练样本数8 图表14:数据增强举例(1)9 图表15:数据增强举例(2)9 图表16:GRU模型时序数据增强方案9 图表17:GRU模型数据增强统计数据9 图表18:GRU模型数据增强多头净值10 图表19:GRU模型数据增强多头超额净值10 图表20:GRU模型数据增强拼接后统计数据10 图表21:GRU模型数据增强拼接后多头净值10 图表22:GRU模型数据增强拼接后多头超额净值10 图表23:GRU模型数据增强拼接后多空净值11 图表24:GRU模型数据增强拼接后分组年化超额11 图表25:LGBM模型数据集11 图表26:LGBM模型增量信息统计数据12 图表27:LGBM模型增量信息多头净值12 图表28:LGBM模型增量信息多头超额净值12 图表29:LGBM模型增量信息多空净值13 图表30:LGBM模型增量信息分组年化超额13 图表31:GRU与LGBM各输入对应因子相关性13 图表32:机器学习转债择券因子统计数据14 图表33:机器学习转债择券因子多头净值14 图表34:机器学习转债择券因子多头超额净值14 图表35:机器学习转债择券因子多空净值14 图表36:机器学习转债择券因子分组年化超额14 图表37:ML转债因子在偏股型转债中统计数据15 图表38:ML转债因子在偏股型转债中多头净值15 图表39:ML转债因子在偏股型转债中多头超额净值15 图表40:ML转债因子在平衡型转债中统计数据15 图表41:ML转债因子在平衡型转债中多头净值15 图表42:ML转债因子在平衡型转债中多头超额净值15 图表43:ML转债因子在偏债型转债中统计数据16 图表44:ML转债因子在偏债型转债中多头净值16 图表45:ML转债因子在偏债型转债中多头超额净值16 图表46:机器学习转债择券策略统计数据16 图表47:机器学习转债择券策略净值17 图表48:机器学习转债择券策略超额净值17 图表49:机器学习偏股型转债择券策略统计数据17 图表50:机器学习偏股型转债择券策略净值17 图表51:机器学习偏股型转债择券超额策略17 图表52:机器学习平衡型转债择券策略统计数据18 图表53:机器学习平衡型转债择券策略净值18 图表54:机器学习平衡型转债择券策略超额净值18 图表55:机器学习偏债型转债择券策略统计数据18 图表56:机器学习偏债型转债择券策略净值19 图表57:机器学习偏债型转债择券策略超额净值19 一、传统可转债择券因子效果不佳 可转债,即可转换公司债券,是一种兼具债券和股票特性的投资工具。它允许投资者在特定条件下将债券转换为公司股票。可转债的优势在于它提供了两方面的安全性和灵活性:首先,作为债券,它提供定期的利息收益和本金偿还的优先性;其次,作为股票,它赋予投资者在公司股价上涨时转换为股票以获取潜在资本增值的机会。因此,可转债不仅提供了较低风险的投资选择,还有机会参与公司的未来增长。 A股可转债市场规模经历了从1993年的不足10亿元到2024年初的8462亿元的显著增 长。1993年至2002年市场规模从不足10亿元增长至2002年末的63亿元,2003年突破百亿,2010年至2014年有所增长,2014年至2015年因大量创业板转债退市而下滑,2017年开始进入扩容增长阶段,2024年初达到8462亿元。截至2024年10月11日,存量数 量543支。近万亿的市场规模使得量化择券策略有较好的应用场景。 图表1:可转债数量变化 600 500 400 300 200 100 0 来源:Wind,国金证券研究所 传统可转债策略大多是根据转债估值,寻找相对低估的个券进行投资,但伴随转债市场整体估值近年来的抬升,其有效性有衰减迹象。在2022年之前,双低类的转债(转债价格低并且转股溢价率低)能够提供较好的择券收益。但是随着这些年大量资金涌入转债市场而转债数量的增加速率无法匹配,使得市场上转债平均价格和溢价上抬明显,双低策略的收益也下滑明显。 在之前的报告《BETA猎手系列之八:基于偏股型转债的择时与择券构建固收+策略》中,我们深入研究了应用于偏股型转债的线性因子,并在回测及后续跟踪过程中取得了良好表现。在本文中,我们将进一步探索机器学习的潜力,以期提升整体转债(涵盖偏股型、平衡型和偏债型)的择券策略表现,力求实现更优的投资回报和风险管理。 二、神经网络模型——以GRU为代表的优化探索 在之前针对量化选股的研究中,我们将机器学习选股模型通常分为两类,一类是神经网络模型,以GRU、TCN和Transformer为代表;一类是决策树模型,以LGBM、XGBoost和CatBoost为代表。本章将针对神经网络模型在转债择券领域进行深入探索,考虑到训练模型的时间成本,我们选择公认表现较为稳健的GRU模型进行优化探索。 2.1增量信息的影响 在使用GRU模型进行时间序列分析时,我们期望其能够捕捉到价格随时间变化的规律,因此我们选择日度K线作为主要输入。此外,由于偏股型、平衡型和偏债型转债在价格变化规律上存在显著差异,我们将三种溢价率序列(包括平底溢价率)也纳入GRU的输入,以便模型能够更精准地识别和处理这些不同类型转债的特征。而各种量价与基本面因子因时序上的规律不明显,因此不作为GRU的输入。 图表2:GRU模型数据集 编号 名称 描述 数据集1 转债K线 转债高开低收、VWAP和成交量共6个原始日线量价数据 数据集2 正股K线 转债对应正股高开低收、VWAP和成交量共6个原始日线量价数据 数据集3 溢价率 平底溢价率、纯债溢价率、转股溢价率 来源:Wind,国金证券研究所 GRU使用的数据集涵盖了从2005年1月1日至2024年11月30日的数据,模型输入回看 窗口60日。结合转债市场的实际数量,后续的回测从2020年2月1日开始,截至2024 年10月31日。回测剔除债券余额在一亿以下的转债。 为了确保结果具有实际的可交易性,我们采用次日(T+1)的收盘价作为成交价。本文主要考虑周频调仓,因此使用5日(T+1至T+6)收盘价收益率作为标签。在训练过程中,我们对收益率进行排序处理,以增强模型的学习效果。 模型采用每1年滚动1次的方式进行训练,考虑到训练过程可能受到随机种子的影响,我 们对每个模型进行了3次独立训练,并取平均值作为最终结果。 对GRU模型的三个数据集进行一些有意义的组合,便得到了5种输入方式,采用5分组的方式进行检验。 图表3:GRU模型增量信息统计数据 IC均值 风险调整的IC t统计量 多头年化收益率 多头年化超额收益率 多头 Sharpe比率 多头信息比率 多头超额最大回撤 多空年化收益率 多空波动率 多空 Sharpe比率 多空最大回撤 正股K线 2.24% 0.21 3.24 13.59% 6.68% 0.91 1.15 5.65% 8.81% 0.09 1.01 9.41% 正股K线+转债K线 3.82% 0.39 6.10 14.94% 7.85% 1.08 1.76 3.88% 15.89% 0.08 2.04 5.98% 正股K线+转债K线+溢价率 6.06% 0.58 9.07 18.03% 10.68% 1.35 2.42 3.37% 23.27% 0.08 3.00 7.08% 转债K线 3.55% 0.31 4.90 11.80% 5.00% 0.80 0.95 5.69% 9.96% 0.09 1.16 6.31% 转债K线+溢价率 6.53% 0.61 9.50 19.53% 12.04% 1.49 2.57 3.80% 24.69% 0.09 2.78 8.47% 来源:Wind,国金证券研究所 图表4:GRU模型增量信息多头净值图表5:GRU模型增量信息多头超额净值 2.6 2.4 2.2 2 1.8 1.6 1.4 1.2 1 0.8 2020/2/72021/2/72022/2/72023/2/72024/2/7 正股K线转债K线 1.8 1.7 1.6 1.5 1.4 1.3 1.2 1.1 1 0.9 0.8 2020/2/72021/2/72022/2/72023/2/72024/2/7 正股K线转债K线 转债K线+溢价率 正股K线+转债K线+溢价率 正股K线+转债K线 转债K线+溢价率正股K线+转债K线正股K线+转债K线+溢价率 来源:Wind,国金证券研究所来源:Wind,国金证券研究所 图表6:GRU模型增量信息多空净值 图表7:GRU模型增量信息分组年化超额 3.5 15.00% 3 10.00% 2.5 5.00% 2 1.5 0.00% 1 0.5 0 2020/2/72021/2/72022