
作者:冯祖涵,FRM tt邮箱:research@fecr.com.cn 债券市场违约现状与机器学习违约风险模型初探 摘要 自2014年我国债券市场“刚性兑付”被打破后,债券市场逐步进入违约常态化阶段。自2022年起,债市违约金额与违约主体数量整体较前几年大幅下降,但房地产行业信用风险突出。 相关研究报告: 根据往年债券违约的数据统计,债券类型中公司债的违约债券个数与违约金额占比最大,中期票据紧随其后。违约类型中未按时兑付本息为发生违约的最主要原因,其次是未按时兑付利息与提前到期未兑付。从违约发行人的性质来看,自2014年至2023年,共有234家违约债券发行人,涉及多种所有制类型,但其中大多数为民营企业。从违约债券所属行业来看,违约债券共涉及26个行业,整体上违约债券行业分布相对分散,但自2022年起违约主要集中于房地产行业。从信用评级来看,在剔除无信用级别的发行主体后,债券违约前一个月信用评级在BBB-及以上的发行主体占比约54%,高信用级别主体频繁违约。 1.《民企新增债券违约率上升,新增一家房地产企业违约——2024年第一季度信用债违约分析》,2024.04.10 2.《债券违约判定与中国债市违约率分析》,2023.01.18 近年来,越来越多研究使用机器学习算法开发债券违约风险模型。常用于 债 券 违 约 预 警 模 型 的 机 器 学 习 算 法 包 括 支 持 向 量 机 (Support VectorMachine,SVM)、随机森林(Random forest,RF)与极端梯度提升(eXtremeGradient Boosting,XGBoost)。也有部分研究将XGBoost与其他算法结合,应用于债券违约模型构建,如GWO-XGBoost组合模型与SMOTETomek-GWO-XGBoost组合模型。 相比于经典模型,基于机器学习算法开发的债券违约风险模型可选择多个变量,并通过筛选确定效果最优模型;同时,此类模型不依赖于模型假设,对数据分布与模型形式不做限制,整体的预测效果较好。机器学习算法经常被诟病的“黑箱”问题也可以通过使用Shapley值法衡量每个特征对单个预测结果的贡献,提高模型的可解释性。 展望未来,化债背景下城投企业信用分化加剧,房地产行业信用风险尚未出清,债券市场违约风险仍将持续暴露。基于机器学习算法的债券违约研究及商业化模型将为企业、投资者和监管机构提供识别债券违约风险的可靠技术支持。 2014年“11超日债”发生实质性违约,我国债券市场的“刚性兑付”由此打破。近年来,债券市场违约逐步呈现出常态化特征。在此背景下,探讨债券市场违约现状,分析违约概率模型构建,具有重要意义。 一、债券市场违约现状 自2014年至2023年,我国债券市场违约大致经历了三个阶段:2014年至2016年,债券市场违约风险初步暴露,违约金额与违约主体逐渐增多;2018年至2021年,违约风险集中暴露,2019年违约主体数增长至225家,违约金额增长至1579.02亿元,后续违约金额进一步增长,但违约主体数量有所下降;2022年至2023年,债市违约形势有所缓和,违约金额与违约主体数大幅下降,2023年共50家违约主体,涉及的违约金额为298.47亿元。 从债券类型来看,违约债券多为公司债与中期票据。自2014年至2023年,478只公司债发生违约,违约金额总计3494.78亿元,占比43%。286只中期票据发生违约,累计违约金额2351.75,占比约29%。定向工具、超短期融资券、短期融资券与企业债的违约债券数量相对较少,违约金额占比均在10%以下。另有少量违约债券属于可交换债券、可转债、集合票据、集合债。 从违约类型来看,未按时兑付本息为发生违约的最主要原因,其次是未按时兑付利息与提前到期未兑付。自2014年至2023年,453只债券因未按时兑付本息发生违约,违约金额总计3695.25亿元,占比约45%。186只债券因未按时兑付利息违约,违约金额共计1235.88亿元,占比约15%。105只债券因提前到期未兑付发生违约,涉及金额为1104.95亿元,占比约14%。123只债券因未按时兑付回售款和利息发生违约,涉及金额836.89亿元,占比约10%。此外,77只债券因破产重整发生违约,61只债券触发交叉违约。另有少量债券违约类型属于未按时兑付本金、1-2个工作日内的延期支付、未按时兑付回售款以及担保违约。 从违约债券发行人的企业性质来看,违约主体多为民营企业。自2014年至2023年,共有234家违约债券发行 人,涉及多种所有制类型。其中,民营企业共156家,占比约67%;地方国有企业44家,占比19%;另有部分违约主体属于中外合资企业、外商独资企业、中央国有企业以及其他所有制类型企业。 从违约债券所属行业来看,整体上违约债券行业分布相对分散,自2022年起违约主要集中于房地产行业。2014年至2023年发生违约的债券共涉及26个行业,违约规模较大的行业包括房地产、商业贸易、建筑装饰、电子、综合、公用事业、化工、交通运输、有色金属、汽车等。其中,房地产行业违约金额达到1389.99亿元,占比约17%;商业贸易行业的违约金额为891.04,占比约11%。 分年度来看,2014年至2015年,少数行业出现债券违约,违约金额较大的行业主要是电气设备与建筑材料。 2016年至2021年,出现债券违约的行业大幅增加。在2016年至2019年,债券违约主要分布于建筑装饰、化工、公用事业、有色金属、综合等行业;2020年至2021年,债券违约集中爆发在电子、房地产、汽车、交通运输、商业贸易等行业。2022年至2023年,债券违约所涉及的行业大幅减少,但房地产行业违约风险尤其突出。 从债券违约前一个月的主体信用评级来看,高信用级别主体频繁违约。在剔除无信用级别的发行主体后,债券违约前一个月信用评级在投资级(BBB-及以上)的发行主体占比约54%,其中AAA级占比约4%,AA+级占比8%,AA级占比14%,而CCC级及以下占比仅32%。 二、债券违约率量化模型 当前债市违约形势有所缓和,违约债券数量与违约发行人数量均较过去几年大幅下降,但部分行业尤其是房地产行业的违约风险尚未出清。在信用评级对违约风险的预警能力尚显不足的背景下,可以借助量化手段研究违约风险的影响因子并建立债券违约模型。 经典的债券违约风险模型可以大致分为线性与非线性。线性模型中最为经典且广泛使用的模型即阿特曼Z-score模型以及在此基础上拓展的ZETA信用风险模型,这两个模型构建了违约风险与特定几个企业财务指标的关系,模型适用方法简单,但存在指标选取不够全面的问题。非线性模型中最经典的模型为结构模型与强度模型。结构模型是基于期权定价理论建立起来的,主要包括Merton模型和KMV模型。结构模型认为债券违约是由于公司资产价值下降到一定程度导致企业无力偿还债务所引起的,即公司资产价值小于债务账面价值时才会发生违约。Merton模型通过计算违约距离得到违约风险,但其对市场环境、企业价值、利率与资产等因素做出了比较严格的假设,后续很多研究又对其进行了发展与完善。KMV模型被穆迪开发为商业化的信用评级模型,已经得到了广泛应用。另一类强度模型则是基于现金流贴现理论建立起来的。强度模型认为,违约不依赖于企业资产价值,企业的违约过程取决于外生变量。Jarrow和Turnbull(1995)假定违约的发生是随机的,且违约概率由特定违约强度λ的泊松过程所决定,基于违约强度来计算信用风险。后续学者对违约强度的进一步研究拓展了强度模型。 近年来,机器学习算法逐渐应用至债券市场,越来越多研究使用机器学习算法开发债券违约概率模型。相比于经典模型,机器学习模型具有以下特点:首先,机器学习模型可以选取多个影响债券违约的变量,包括宏观层面、行业层面、企业自身层面等多个层次的影响因素。相较于经典模型,可用的预测变量大幅拓展。同时,机器学习算法可以协助筛选指标,确定效果最好的模型。例如,MRMR(Max-Relevance and Min-Redundancy)算法可以在原始特征集合中找到与最终输出结果相关性最大,但是特征彼此之间相关性最小的一组特征。其次,机器学习是一种自组织、自适应的非参数方法,对数据分布、模型形式不作特别限制,不依赖于模型假设,能够有效缓解经典模型的不足。同时,为解决机器学习模型自身可能存在的“黑箱”问题,许多研究选择引入Shapley值法来衡量每个特征对单个预测结果的贡献,提高了机器学习模型的可解释性。最后,机器学习模型的预测效果相对较好,机器学习算法能够通过参数正则化等方法对数据的非线性性、高维特性实现充分分析,兼顾样本内拟合优度和样本外预测能力。 常用于债券违约预警模型的机器学习算法包括支持向量机(Support Vector Machine,SVM)、随机森林(Randomforest,RF)与极端梯度提升(eXtremeGradient Boosting,XGBoost)。 支持向量机(SVM)是一类按监督学习(supervised learning)方式对数据进行二元分类的广义线性分类器,其决策边界是对学习样本求解的最大边距超平面。对于机器学习当中一些线性不可分的问题或者涉及研究的样本量较小时,抑或是存在一些高维数据时,可以利用支持向量机算法进行解决,既可以构建分类模型又可以构建相关的回归模型。 随机森林(RF)是引导聚集算法(Bagging)的扩展,它利用Bagging和特征随机性来创建一个不相关的决策 树森林。随机森林算法计算中需要构建不同的树从而组建森林,这些树通过不同的排列组合构造出随机森林分类器。不同的树其分类性能会有一定的偏差,但是随机森林算法会在最后全面地考虑到每棵树的结果,并将其结果综合考虑得到最后的分类结果,因此往往其分类效果较好。 极端梯度提升(XGBoost)采用集成思想,是一种开源的高度可扩展的梯度提升的学习方法,其稳定性较强,预测性能优异,对数据中的噪声和多重共线性问题敏感度较低,在分类和预测方面的效果明显优于传统模型。XGBoost通过将正则项引入损失函数中,且对损失函数进行了二阶泰勒展开,能够较好地权衡模型自身的复杂程度和损失函数的下降程度,从而可以更好地处理和控制过拟合问题的产生和提高模型的求解效率。也有部分研究将XGBoost与其他算法结合,应用于债券违约预警研究。比如,肖艳丽等(2021)构建了GWO-XGBoost组合模型。灰狼优化算法(GWO)是受到灰狼捕食猎物活动启发而开发的一种优化搜索方法,具有收敛性能较强、参数少、易实现等特点,在组合模型中用于对预警模型的参数eta(学习率)和max_depth(树的最大深度)进行优化设置。吴育辉等(2024)在GWO-XGBoost组合模型的基础上,考虑到债券样本非平衡的特点,使用SMOTETomek(SyntheticMinorityOversampling Technique Tomek Links)采样算法,有效提升了违约样本的识别率。SMOTE-TomekLinks方法结合了SMOTE过采样方法和Tomek Links欠采样方法的特点,既保留了有效信息,又可以去除具有相似特征和重叠的噪声数据,可以更有效地改善数据不平衡性,并提高模型识别少数类的准确性。 除了算法,研究中样本选取和变量选择同样也会影响机器学习模型的效果。样本选取方法不一而足,许多研究中最终选择的变量则具备一致性。部分研究会专注于最直接反映企业运行状态的财务指标,具体使用的财务指标一般会包括偿债能力、盈利能力、经营能力、成长能力、资本结构、现金流水平等多个方面的指标。也有部分研究会在考虑财务指标的同时,纳入企业相关指标、债券相关指标、宏观指标、行业指标等。 三、总结 自2014年我国债券市场“刚性兑付”被打破后,债券市场逐步进入违约常态化阶段。2022年到2023年,债市违约金额与违约主体数量较前几年大幅下降,但高度集中于房地产行业。