您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[远东资信]:基于混合模型框架的债券违约预警研究 - 发现报告

基于混合模型框架的债券违约预警研究

建筑建材2024-07-11孙晨童、陈浩川远东资信福***
AI智能总结
查看更多
基于混合模型框架的债券违约预警研究

基于混合模型框架的债券违约预警研究 摘要 本文是“债券违约预警与主动评级系统研究”的阶段性成果。为了兼顾模型的预测精度和可解释性,我们采用了机器学习中的Lasso模型与逻辑回归(Logistic回归)模型的混合框架来进行债券违约预警。 整个框架设计包含三个关键模块: 一是,评分模块,对发债主体的非财务定性指标与财务定量指标进行打分。 二是,量化违约预警模块,该模块主要包括机器学习和逻辑回归两个子模块。其中,机器学习子模块,将债券是否违约作为被解释变量,利用Lasso模型进行特征选择和降维,筛选出对债券违约有显著影响的解释变量;逻辑回归子模块,使用筛选出的解释变量,通过排列组合和逐步迭代的方式,将其带入Logistic模型中进行估计,选择出预测精准度最优的解释变量组合,并将相应的参数估计结果作为最终模型形式。 三是,违约概率输出模块,基于最终确定的Logistic模型形式,输出测试样本的违约概率。 整个框架具有动态调参的能力,可以根据样本变化进行实时优化,为未来嵌入文本分析、信用画像评价、主动评级及大语言模型等多个模块提供了坚实的基础。 一、引言 在防范化解重大金融风险中,企业债务违约是一个被重点关注的问题。随着我国债券市场的不断壮大,发债已经成为企业直接融资的重要渠道。然而,2014年,随着“11超日债”未能按时全额兑付利息,我国债券市场“刚兑”被正式打破。自此,我国债券违约事件频发,违约数量和规模不断扩大,债券违约风险已经成为我国金融市场中不可忽视的重大风险点之一。因此,研究债券违约的影响因素以及有效预警债券违约风险成为了金融领域亟待解决的问题。 近年来,金融科技快速发展,尤其是大数据、人工智能以及机器学习等技术的应用,为债券违约风险的预测和管理提供了新的视角和工具。通过整合和分析大量企业财务数据、市场信息可以构建更为精准的债券违约概率预警模型。这不仅能够帮助投资者做出更为明智的投资决策,降低投资风险,同时也能够帮助企业及时发现潜在的违约风险,采取相应措施进行风险规避。 已有研究表明,机器学习方法在债券违约预测中具有较高的预测精度,但其算法的“黑箱”特性往往缺乏可解释性。传统计量回归模型虽然解释性强,但预测精度通常不及机器学习方法。为此,本文试图构建一个结合机器学习和传统计量回归的混合模型框架,以提高预测精度的同时确保模型的可解释性。通过这一框架的实现,我们致力于为债券市场的参与者提供更有效的信用风险管理工具。 二、技术路线 整个框架除了定性指标打分环节需要人工介入外,其余环节均采用Python编程实现。建模的技术路线可以分为五个步骤: 第一步,收集自2014年以来债券市场的违约样本企业,并按照一比一的比例收集相似的正常样本企业(未违约样本)。搜集样本的年报与财务指标数据,对所有样本的定性指标和定量指标进行打分。 第二步,将违约样本和正常样本按照3比1的比例随机划分为训练集(75%)和测试集(25%)。 第三步,利用训练集建立机器学习的Lasso模型,筛选出对债券违约有显著影响的定性和定量指标。 第四步,基于Lasso模型筛选出的解释变量,通过排列组合构建Logistic回归模型。记录每个解释变量组合的参数估计结果与预测精确度,并进行穷举迭代,选择预测精度最优的解释变量组合作为最终的Logistic回归模型结果。 第五步,基于最优的Logistic回归模型形式,对测试样本分别计算预测违约概率。 三、指标打分原则与模型原理 本文参考远东资信2019年IAMAC年度课题“非金融周期性行业债券违约预警系统在保险资产管理机构的应用”的研究成果,采用了该课题中的定性指标和定量指标打分原则,并通过编程实现了定量指标打分模块。课题的打分结果作为本文建模的数据集。筛选出的可能影响债券违约指标共有28个,其中定性指标为8个;定量指标为20个,指标相关信息见表1。 (一)定性指标打分原则 8个定性指标包括:市场地位、多元化、产业链控制力、融资渠道、公司治理与法律、监管风险、会计信息质量、股东背景和外部支持、或有负债。这些定性指标的档位划分和描述主要参考了国内外信用评级行业的评级技术逻辑。表2展示了部分定性指标的打分原则。 (二)定量指标打分原则 考虑到同一指标在不同行业之间是不可比的,我们对每个行业(共19个行业)单独进行定量指标阈值确定与档位划分,并在此基础上进行赋分以消除行业间差异。首先,我们分别收集每个行业所有发债主体的20个定量指标数据。为了消除异常值影响,对数据进行1%双边缩尾处理。然后,以15%、29%、43%、57%、71%、85%、100%分位数作为临界值,将数据划分为7档来确定阈值,并根据阈值对其进行赋分,与定性指标分数类似,7个档位分别为1到7分。 在编程实现方面,当发债企业数据导入“定性与定量指标打分模块”时,系统会根据企业所属行业为其贴上标签,然后与相应的行业打分项进行匹配,根据定量指标所在的区间映射出具体分数。现以采掘行业的部分定量指标评分表为例。 (三)Lasso回归模型 Lasso是“Least Absolute Shrinkage and Selection Operator”的简称,由Tibshirani (1996)提出,主要用于预测和模型筛选。其核心思想是在传统的回归分析中施加约束条件(惩罚项),以便滤除那些不重要变量(使其系数强制为零),最终筛选出相对精简的模型。若配合交叉验证等手段来选择参数,则Lasso得到的模型具有较强的样本外预测能力(亦称“泛化能力”)。以Lasso为首的一系列方法被通称为“惩罚回归”(Penalized Regressions),Lasso模型的公式如下: Lasso方法的主要用途是解决“高维数据问题”,主要包括两种情形:其一,数据本身包含多个变量,有些情况下变量的个数可能超过样本数;其二,虽然样本中的变量个数不多,但由于模型的具体形式未知,需要将变量的各种转换、高阶项以及交叉项等放入模型,并在这个潜在模型集合中选出最优模型,有些模型中的参数会非常多,甚至超过样本数。上述两种情况采用传统计量回归模型是很难解决的。 (四)Logistic回归模型 Logistic回归模型是一种用于二分类问题的统计方法。它的核心作用是预测一个事件发生的概率。与传统的回归模型不同,Logistic回归不会直接预测一个具体的值,而是预测一个介于0到1之间的概率值,这个值可以被解释为事件发生的可能性。Logistic回归模型表示成如下形式: 式中,X为影响债券违约的影响因素,PD为测试样本的预测违约概率。一般来说,根据Logistic回归模型的定义,预测违约概率大于0.5表示将来会违约,预测违约概率小于0.5表示将来不会违约,因此,可以通过预测违约概率来预警债券未来是否会发生违约。 (五)预测精准度评价指标 1.混淆矩阵 本文将债券发生违约称为阳性(Positive),反之则为阴性(Negative)。在此,引入几个概念,真阳(TruePositive):实际为 阳性, 预测也 是阳性;假 阳 (Fale Positive):实际为 阴性, 预测是 阳性;真 阴(TrueNegative):实际为阴性,预测也是阴性;假阴(False Negative):实际为阳性,预测是阴性。由此会延申出两个用以判别准确率的指标,真阳率:实际为阳的样本中,预测为阳性的样本所占比例;真阴率:实际为阴的样本中,预测为阴性的样本所占比例。二者构成了混淆矩阵的基本形式。 2.ROC曲线 ROC曲线(Receiver Operating Characteristic Curve)是一种评估分类模型性能的可视化工具。它通过绘制真阳率对假阳率的曲线来展示模型在不同决策阈值下的表现。ROC曲线越接近左上角,说明模型性能越好。曲线下面积(AUC,Area Under the Curve)是评价模型整体性能的指标,AUC值越接近1,表示模型的分类效果越佳,AUC为0.5则表示模型的性能与随机猜测相当。ROC曲线能够全面反映模型的敏感性和特异性,因此在二分类问题中被广泛应用。本质上讲,预测债券是否会发生违约也是一个二分类问题,因此我们采用ROC曲线来检验模型的预测性能。 四、建模过程与分析 (一)定性与定量指标打分模块输出结果 本次建模共涉及96家发债主体,其中违约和未违约主体各48家。按照3:1的比例,随机选取72个作为训练集,24个作为测试集。每家主体共28个指标(定性指标8个,定量指标20个),作为潜在影响债券违约的解释变量,依次编号为X1至X28。通过人工与编程相结合的方法,对每家发债主体的28个指标进行评分,打分部分结果见表4。除以此外,表4中“是否违约”项是用于构建Lasso回归模型和Logistic回归模型的被解释变量Y。当Y=1时,代表债券违约;当Y=0时,代表债券未发生违约。 (二)量化预警模块输出结果 基于训练集的打分结果,首先构建Lasso回归模型,结果从28个指标中筛选出15个显著影响债券违约的指标,包括:多元化、融资渠道、流动比率等。对15个指标进行排列组合,共32768个组合,经过穷举迭代,根据预测准确率和ROC曲线综合判断,最终的Logistic回归模型包含6个解释变量:产业链控制力、公司治理与法律、监管风险、总债务资本化比率、应收账款周转率、收入现金比和自由现金流动负债比,参数估计结果如下: Xi𝛽̂=−11.42+0.74×产业链控制力+1.27×公司治理与监管风险+0.71×总债务资本化率+0.36×应收账款周转率−0.43×收入现金比+0.38×自由现金流动负债比 图3为训练集的ROC曲线结果,图中横轴为假阳性率(False Positive Rate),纵轴为真阳性率(True PositiveRate)。从图中可以看出,第一,曲线在接近左上角时迅速上升,这表明模型在较低的假阳性率下能够保持较高的真阳性率。这意味着模型在预测债券违约时有较高的准确性。第二,图中曲线下面积AUC值为0.95,非常接近1,这表明模型在区分违约和非违约样本方面具有很高的性能。第三,假阳性率和真阳性率之间的权衡在该模型中非常优越。曲线明显高于对角线(对角线表示随机猜测的情况,AUC为0.5),说明模型的预测能力远高于随机猜测。总体来看,ROC曲线表明本文构建的混合模型框架在训练集上的表现非常优异,能够有效地预测债券的违约概率。 (三)违约概率模块输出结果 根据Logistic回归模型的最终形式,分别将测试集中每家发债主体的相关指标代入模型,并根据Logistic逆变换公式计算债券的预测违约概率。表5展示了测试样本的预测违约概率结果,其中违约样本和正常样本的预测结果分别列出。如果以0.5为临界值,违约样本与正常样本分别各有一次预测错误,在违约样本中,“1280443.IB”的预测违约概率为0.46,实际上已非常接近0.5;在正常样本中,“910020.QLE”的预测违约概率为0.83。 表6展示了模型在测试集上的混淆矩阵结果及正确率。从表中可以看出,在测试集中,实际未违约样本有8个,其中模型正确识别了7个,错误识别了1个,正确率为87.50%。对于实际违约样本有16个,模型正确识别了15个,错误识别了1个,正确率为93.75%。总体来看,模型在测试集上的总正确率达到了91.60%。 通过以上分析可以看出,本文构建的模型框架在预测债券违约概率方面表现出了较高的准确性和稳定性,能够有效地区分出违约和未违约样本,为债券违约风险预警提供可靠的工具支持。 五、总结与展望 本文采用“机器学习+逻辑回归”的混合模型框架对债券违约概率进行预警,除了定性指标打分部分,其余运算模块均采用Python集成化编程。首先,使用样本训练集进行模型训练,通过Lasso回归进行降维处理,随后通过穷举迭代筛选出预测精准度最优的Logistic回归模型形式。经测试集验证,债券违约预警的精准度高达91.6%, 表明该框架具有较高的性能和可靠性。 未