作者:冯祖涵,FRM t邮t 箱:research@fecr.com.cn 相关研究报告: 1.《民企新增债券违约率上升,新增一家房地产企业违约——2024年第一季度信用债违约分析》,2024.04.10 2.《债券违约判定与中国债市违约率分析》,2023.01.18 债券市场违约现状与机器学习违约风险模型初探 摘要 自2014年我国债券市场“刚性兑付”被打破后,债券市场逐步进入违约常 态化阶段。自2022年起,债市违约金额与违约主体数量整体较前几年大幅下降,但房地产行业信用风险突出。 根据往年债券违约的数据统计,债券类型中公司债的违约债券个数与违约金额占比最大,中期票据紧随其后。违约类型中未按时兑付本息为发生违约的最主要原因,其次是未按时兑付利息与提前到期未兑付。从违约发行人的性质来看,自2014年至2023年,共有234家违约债券发行人,涉及多种所有制类型,但其中大多数为民营企业。从违约债券所属行业来看,违约债券共涉及26个行业,整体上违约债券行业分布相对分散,但自2022年起违约主要集中于房地产行业。从信用评级来看,在剔除无信用级别的发行主体后,债券违约前一个月信用评级在BBB-及以上的发行主体占比约54%,高信用级别主体频繁违约。 近年来,越来越多研究使用机器学习算法开发债券违约风险模型。常用于债券违约预警模型的机器学习算法包括支持向量机(SupportVectorMachine,SVM)、随机森林(Randomforest,RF)与极端梯度提升(eXtremeGradientBoosting,XGBoost)。也有部分研究将XGBoost与其他算法结合,应用于债券违约模型构建,如GWO-XGBoost组合模型与SMOTETomek-GWO- XGBoost组合模型。 相比于经典模型,基于机器学习算法开发的债券违约风险模型可选择多个变量,并通过筛选确定效果最优模型;同时,此类模型不依赖于模型假设,对数据分布与模型形式不做限制,整体的预测效果较好。机器学习算法经常被诟病的“黑箱”问题也可以通过使用Shapley值法衡量每个特征对单个预测结果的贡献,提高模型的可解释性。 展望未来,化债背景下城投企业信用分化加剧,房地产行业信用风险尚未出清,债券市场违约风险仍将持续暴露。基于机器学习算法的债券违约研究及商业化模型将为企业、投资者和监管机构提供识别债券违约风险的可靠技术支持。 远东研究·固收研究 2014年“11超日债”发生实质性违约,我国债券市场的“刚性兑付”由此打破。近年来,债券市场违约逐步呈现出常态化特征。在此背景下,探讨债券市场违约现状,分析违约概率模型构建,具有重要意义。 一、债券市场违约现状 自2014年至2023年,我国债券市场违约大致经历了三个阶段:2014年至2016年,债券市场违约风险初步暴露,违约金额与违约主体逐渐增多;2018年至2021年,违约风险集中暴露,2019年违约主体数增长至225家,违约金额增长至1579.02亿元,后续违约金额进一步增长,但违约主体数量有所下降;2022年至2023年,债市违约 形势有所缓和,违约金额与违约主体数大幅下降,2023年共50家违约主体,涉及的违约金额为298.47亿元。 违约金额(亿元)违约主体(个;右轴) 2000 1800 1600 1400 1200 1000 800 600 400 200 0 2014201520162017201820192020202120222023 250 200 150 100 50 0 图1:2014年至2023年境内债券市场违约金额与违约主体数资料来源:DM查债通,远东资信整理 注:违约债券中剔除了资产支持证券(ABS)与资产支持票据(ABN),同时展期债券不计入违约债券范围内。 从债券类型来看,违约债券多为公司债与中期票据。自2014年至2023年,478只公司债发生违约,违约金额总计3494.78亿元,占比43%。286只中期票据发生违约,累计违约金额2351.75,占比约29%。定向工具、超短期融资券、短期融资券与企业债的违约债券数量相对较少,违约金额占比均在10%以下。另有少量违约债券属于可交换债券、可转债、集合票据、集合债。 企业债 4.01% 短期融资券 5.47% 可交换债券 1.83% 集合债 0.01% 可转债 0.00% 集合票据 0.01% 超短期融资券 6.77% 定向工具 10.41% 公司债 42.73% 中期票据 28.76% 图2:2014年至2023年违约债券类型分布(以违约金额计算)资料来源:DM查债通,远东资信整理 未按时兑付本金 触发交叉违约 5.02% 1.54% 1-2个工作日 内的延期支付 担保违约 0.02% 破产重整 7.56% 未按时兑付回售款和利息10.23% 未按时兑付回售款 0.77% 提前到期未兑付 13.51% 未按时兑付利息 15.11% 未按时兑付本息 45.18% 从违约类型来看,未按时兑付本息为发生违约的最主要原因,其次是未按时兑付利息与提前到期未兑付。自2014年至2023年,453只债券因未按时兑付本息发生违约,违约金额总计3695.25亿元,占比约45%。186只债券因未按时兑付利息违约,违约金额共计1235.88亿元,占比约15%。105只债券因提前到期未兑付发生违约,涉及金额为1104.95亿元,占比约14%。123只债券因未按时兑付回售款和利息发生违约,涉及金额836.89亿元,占比约10%。此外,77只债券因破产重整发生违约,61只债券触发交叉违约。另有少量债券违约类型属于未按时兑付本金、1-2个工作日内的延期支付、未按时兑付回售款以及担保违约。 图3:2014年至2023年违约债券的违约类型分布(以违约金额计算)资料来源:DM查债通,远东资信整理 从违约债券发行人的企业性质来看,违约主体多为民营企业。自2014年至2023年,共有234家违约债券发行 中外合资企业 2.99% 外商独资企业 2.56% 中央国有企业 0.43% 其他所有制类型企业 8.55% 地方国有企业 18.80% 民营企业 66.67% 人,涉及多种所有制类型。其中,民营企业共156家,占比约67%;地方国有企业44家,占比19%;另有部分违约主体属于中外合资企业、外商独资企业、中央国有企业以及其他所有制类型企业。 图4:2014年至2023年违约债券发行人的企业性质 资料来源:DM查债通,远东资信整理 从违约债券所属行业来看,整体上违约债券行业分布相对分散,自2022年起违约主要集中于房地产行业。2014 年至2023年发生违约的债券共涉及26个行业,违约规模较大的行业包括房地产、商业贸易、建筑装饰、电子、综合、公用事业、化工、交通运输、有色金属、汽车等。其中,房地产行业违约金额达到1389.99亿元,占比约17%;商业贸易行业的违约金额为891.04,占比约11%。 图5:2014年至2023年违约债券所属行业分布(以违约金额计算)资料来源:DM查债通,远东资信整理 分年度来看,2014年至2015年,少数行业出现债券违约,违约金额较大的行业主要是电气设备与建筑材料。 2016年至2021年,出现债券违约的行业大幅增加。在2016年至2019年,债券违约主要分布于建筑装饰、化工、公用事业、有色金属、综合等行业;2020年至2021年,债券违约集中爆发在电子、房地产、汽车、交通运输、商业贸易等行业。2022年至2023年,债券违约所涉及的行业大幅减少,但房地产行业违约风险尤其突出。 采掘传媒电气设备电子房地产纺织服装非银金融钢铁公用事业国防军工化工机械设备计算机建筑材料建筑装饰交通运输农林牧渔汽车轻工制造商业贸易食品饮料通信休闲服务医药生物有色金属综合 2000 1500 1000 500 0 2014201520162017201820192020202120222023 图6:2014年至2023年各年度违约债券所属行业分布(以违约金额计算)资料来源:DM查债通,远东资信整理 从债券违约前一个月的主体信用评级来看,高信用级别主体频繁违约。在剔除无信用级别的发行主体后,债券违约前一个月信用评级在投资级(BBB-及以上)的发行主体占比约54%,其中AAA级占比约4%,AA+级占比8%,AA级占比14%,而CCC级及以下占比仅32%。 发行主体数 50 45 40 35 30 25 20 15 10 5 0 图7:2014年至2023年违约债券发行人违约前一个月主体信用级别分布资料来源:DM查债通,远东资信整理 二、债券违约率量化模型 当前债市违约形势有所缓和,违约债券数量与违约发行人数量均较过去几年大幅下降,但部分行业尤其是房地产行业的违约风险尚未出清。在信用评级对违约风险的预警能力尚显不足的背景下,可以借助量化手段研究违约风险的影响因子并建立债券违约模型。 经典的债券违约风险模型可以大致分为线性与非线性。线性模型中最为经典且广泛使用的模型即阿特曼Z-score模型以及在此基础上拓展的ZETA信用风险模型,这两个模型构建了违约风险与特定几个企业财务指标的关系,模型适用方法简单,但存在指标选取不够全面的问题。非线性模型中最经典的模型为结构模型与强度模型。结构模型是基于期权定价理论建立起来的,主要包括Merton模型和KMV模型。结构模型认为债券违约是由于公司资产价值下降到一定程度导致企业无力偿还债务所引起的,即公司资产价值小于债务账面价值时才会发生违约。Merton模型通过计算违约距离得到违约风险,但其对市场环境、企业价值、利率与资产等因素做出了比较严格的假设,后续很多研究又对其进行了发展与完善。KMV模型被穆迪开发为商业化的信用评级模型,已经得到了广泛应用。另一类强度模型则是基于现金流贴现理论建立起来的。强度模型认为,违约不依赖于企业资产价值,企业的违约过程取决于外生变量。Jarrow和Turnbull(1995)假定违约的发生是随机的,且违约概率由特定违约强度λ的泊松过程所决定,基于违约强度来计算信用风险。后续学者对违约强度的进一步研究拓展了强度模型。 近年来,机器学习算法逐渐应用至债券市场,越来越多研究使用机器学习算法开发债券违约概率模型。相比于经典模型,机器学习模型具有以下特点:首先,机器学习模型可以选取多个影响债券违约的变量,包括宏观层面、行业层面、企业自身层面等多个层次的影响因素。相较于经典模型,可用的预测变量大幅拓展。同时,机器学习算法可以协助筛选指标,确定效果最好的模型。例如,MRMR(Max-RelevanceandMin-Redundancy)算法可以在原始特征集合中找到与最终输出结果相关性最大,但是特征彼此之间相关性最小的一组特征。其次,机器学习是一种自组织、自适应的非参数方法,对数据分布、模型形式不作特别限制,不依赖于模型假设,能够有效缓解经典模型的不足。同时,为解决机器学习模型自身可能存在的“黑箱”问题,许多研究选择引入Shapley值法来衡量每个特征对单个预测结果的贡献,提高了机器学习模型的可解释性。最后,机器学习模型的预测效果相对较好,机器学习算法能够通过参数正则化等方法对数据的非线性性、高维特性实现充分分析,兼顾样本内拟合优度和样本外预测能力。 常用于债券违约预警模型的机器学习算法包括支持向量机(SupportVectorMachine,SVM)、随机森林(Randomforest,RF)与极端梯度提升(eXtremeGradientBoosting,XGBoost)。 支持向量机(SVM)是一类按监督学习(supervisedlearning)方式对数据进行二元分类的广义线性分类器,其决策边界是对学习样本求解的最大边距超平面。对于机器学习当中一些线性不可分的问题或者涉及研究的样本量较小时,抑或是存在一些高维数据时,可以利用支持向量机算法进行解决,既可以构建分类模型又可以构建相关的回归模型。 随机森林(RF