摘要 研究背景及模型构建:随着市场信息透明度的不断提升,负面舆情对城投债估值的影响日益增大,然而很多情况下,同一类负面舆情对于不同区域城投债估值的影响并不相同,甚至差距很大,导致这种情况出现的因素有很多。本文试图从主观性的角度寻找对负面舆情隔离能力有重大影响的因素,同时从客观性的角度出发建立模型,构造负面舆情隔离能力指标并进行有效性验证,以衡量某区域城投平台估值受潜在负面舆情影响的大小。模型潜在的解释变量,即决定区域低层级负面舆情对主平台债券估值影响大小的因素有很多,大致可以分为五个类别,分别是区域基本面因素、持有人风险特征因素、区域平台关联度因素、舆情自身因素、承接深度。模型的被解释变量,为反映主平台在受到低层级负面舆情干扰后超额利差被影响程度的指标。模型方法上,本文选择投影寻踪聚类法作为分析方法。 模型有效性验证及改进:从结果来看,隔离能力指标与验证样本负面舆情发生后超额利差变化大小呈一定的负相关性,负相关系数为-0.64,说明模型结果对负面舆情风险隔离能力具有一定的解释力度,但解释力度不算非常强。具体原因包括几个方面,其一是模型指标对各负面舆情类型的解释力度不同,综合起来减弱了解释力度。其二是模型的结果是聚类,不同类的样本之间连续性差。 其三是验证样本数量有限,时间口径不完美。其四是传统模型算法全局精准度可能不够。传统模型算法会存在全局搜索能力弱的缺点,易导致结果非真正最优解的问题,因此算法的改进上以加强全局搜索能力为主要出发点。粒子群算法属于群智能算法的一种,该算法在全局搜索能力上突出,其原理为粒子之间信息共享对个体和集体的运动经验进行综合分析,动态调整粒子的运动方向和速度,使得其不断地向最优位置靠近,改进的本质点在于将投影寻踪模型的目标函数用作粒子群算法中粒子的自适应度。 投资建议:根据传统及改进的投影寻踪模型的结果,可以初步将负面舆情隔离能力指标值分为三个档次,即“强”、“中”、“弱”,负面舆情隔离能力强的平台指标值在[0.6,1],负面舆情隔离能力中等的平台指标值在0.3,0.6],负面舆情隔离能力弱的平台指标值在[0,0.3]。传统模型结果处于0.6,1]区间内且具备一定收益率的包括江西、湖南、河南、山东和安徽等区域地市级主平台,考虑到过往负面舆情发生频率对模型结果的干扰,尚未发生负面舆情的江西、湖南、安徽部分区域结果相对更准确,具有一定性价比。改进模型结果处于0.6,1]区间内且具备一定收益率的包括湖北、河北、湖南、河南、山东和安徽等区域地市级主平台,考虑到过往负面舆情发生频率对模型结果的干扰,尚未发生负面舆情的湖北、湖南、安徽部分区域结果相对更准确,具有一定性价比。 风险提示:统计误差、指标选择误差、城投相关政策收紧超预期、货币政策收紧超预期。 本文首先阐述了对该主题进行研究的背景,其次对研究模型构建方面的各类要素及假设条件进行了详细解释,同时梳理了模型指标的挑选过程、模型方法选择及原理,最后对模型结果进行有效性验证,并根据结果内容提出相关投资建议。 1研究背景 本文所指负面舆情,为区域内低层级城投平台产生的负面舆情,不包括主平台自身产生负面舆情的情况。本文所指负面舆情隔离能力,可量化为负面舆情对其估值影响的大小,负面舆情隔离能力越强,负面舆情对平台估值影响越小。随着市场信息透明度的不断提升,负面舆情对城投债估值的影响日益增大,然而很多情况下,同一类负面舆情对于不同区域城投债估值的影响并不相同,甚至差距很大,导致这种情况出现的因素有很多。本文试图从主观性的角度寻找对负面舆情隔离能力有重大影响的因素,同时从客观性的角度出发建立模型,构造负面舆情隔离能力指标并进行有效性验证,以衡量某区域城投平台估值受潜在负面舆情影响的大小。 图1:研究背景思维导图 2构建模型 模型潜在的解释变量,即决定区域低层级负面舆情对主平台债券估值影响大小的因素有很多,大致可以分为五个类别,分别是区域基本面因素、持有人风险特征因素、区域平台关联度因素、舆情自身因素、平台债券存量。区域基本面因素即代表区域整体信用水平,区域基本面越强,区域内低层级负面舆情对主平台债券估值产生的影响越小。持有人风险特征因素主要考量持有人对风险的厌恶程度,风险厌恶程度越低,对主平台债券估值产生的影响越小,不过持有人特征一定程度上亦取决于区域基本面,二者属于正相关。区域平台关联度因素主要考量的是区域内各平台之间的资金关联关系,主平台与低层级平台之间关联程度越小,对主平台债券估值影响越低。舆情自身因素主要包括舆情本身发生的频率以及舆情的种类,本文所述负面舆情主体均为某区域内低层级平台,可用于验证模型的有效性。另外,主平台在市场上的流通存量债券余额和交易效率决定了承接估值风险的深度,因此也是一大重要因素。 模型的被解释变量,为反映主平台在受到低层级负面舆情干扰后超额利差被影响程度的指标,指标越大,超额利差被影响程度越低,舆情风险隔离能力越强。此处存在诸多需要统一的口径。首先是主平台口径,不同层级平台在受到低层级负面舆情干扰后估值可能会有不同程度的反应,因此本文统一选取区域内股权层级和外部评级最高、同等条件下资产规模最大且业务公益属性最强的平台作为主平台;其次是时间口径,由于市场接受程度始终在变化,不同阶段相同种类舆情对市场的影响可能会存在不同,因此本文在时间维度上以2021年后为主,这样亦可减少用“未来”解释“过去”所带来的误差,另外部分时间点市场定价的主导因素并非信用因素,如2022年11月开始的“银行理财赎回潮”下以流动性因素为主导,本文所使用的验证样本均避开该类时间段;第三是验证样本区域口径,除了上述时间维度外,由于负面舆情对某区域定价的影响可能会存在边际效用递减,因此验证样本选择上规避了2021年以前就已经开始高频发生负面舆情的区域,2021年以后发生同种类负面舆情的区域在满足时间口径条件下尽量只选择首次;第四是超额利差变化判定口径,本文选取负面舆情发生后超额利差达到的首个高点与初始值之差为变化值,为减少信息重叠所带来的误差,首个高点距离初始值应当在3个月以内,超过3个月的以第3个月末值为准。 图2:解释项与被解释项的主观选择及口径 2.1模型指标选择 经过上文分析,决定低层级平台负面舆情对主平台债券估值影响大小的因素有很多,我们将其分为了五大类别,在这五大类别中我们分别挑选了部分指标进行模型指标体系的构建。 指标挑选的原则为:(1)易得性,用来构建模型的指标必须较为容易获取,可以较为容易地实现信息的及时更替,若指标的获取难度极大,则考虑用相似指标进行替换;(2)信息丰富性,用来构建模型的指标必须展现出较为丰富的信息区分度,若指标仅属于少部分区域或平台的特性,则不考虑使用;(3)稳定性,用来构建模型的指标所能取值的时间周期尽可能拉长,以避免部分指标短期化造成的误差。 经过筛选,我们将7个指标纳入模型当中:区域基本面因素包括区域经济、区域债务水平;持有人风险特征因素包括区域非市场化发行债券规模占比、特殊时间段内的利差标准差; 区域平台关联度因素包括主平台对区域其他平台净往来绝对值;最后为刻画主平台债券承接估值风险深度的存量余额和换手率。 区域经济及区域债务水平是刻画区域基本面的主轴,也是投资某区域平台的最主要考量点,因此选择二者作为区域基本面因素的代表。持有人风险特征因素方面,直接反映持有人风险特征的应当是持有人具体结构,但鉴于信息难以获取,因此从间接层面加以描绘,此处分别选择了区域非市场化发行债券规模占比、特殊时间段内的利差标准差两个指标,分别代表持有人流动性风险偏好和持有人市场风险偏好,本文所选的特殊时间段为2020年11月、12月和2022年11月、12月;区域平台关联度因素主要考虑内在和外在的资金关系,但基于数据的易得性,此处以内在的资金关系作为代表,指标为主平台对区域其他平台净往来绝对值,该值越低代表高层级平台与其他平台之间的净关联程度越低;债券承接估值风险深度方面,债券最新存量余额越大,平均换手率越高,潜在相对成交量越大,信息交互量越大,潜在估值越趋于真实,潜在估值风险承接能力越强。 表1:模型指标一览 2.2模型方法选择及原理 回归分析法 回归分析是一种预测方法,能够相对准确捕捉多个变量对目标变量的影响。模型基于统计分析,因此可以提供一定的统计学精度,这对于许多实际应用场景是较为重要的。但其存在较为严格的假设,首先,它对数据的假设要求较高,需要数据满足正态性等方面假设。其次,多重共线性问题,即自变量之间存在高度相关性,会导致模型的预测出现偏差。此外,线性回归模型对于异常值和缺失值的处理也比较敏感,这可能会对模型的预测结果产生不良影响。 而基于前文构建模型的部分前提条件可知,本文验证样本的时间口径和区域口径都较为严苛,最终得出的验证样本数量较少,用少量的样本作为基础显然是不合理的,另外部分数据也可能不满足正态假定,因此本文无法较好的满足回归分析所要求的数据假设条件。 熵权法 熵在信息论中的作用在于衡量系统无序程度的高低,对于任何一项指标都可以用熵值来判断其无序程度,熵值越小无序程度越大,如果某项指标的值全部相等,那么该指标在综合评价中不起任何作用。熵权法确定评价权重依据来自于数据所反应的信息本身,客观性强,无主观强加性对决策结果的干扰。但其缺陷也较为显著,熵权法是将不同指标看作独立存在的本体,不考虑指标间的相关性,因此指标相关性越强,权重分配误差越大。此外由于熵权法赋权完全取决于数据本身,因此在不能完全确定解释变量和被解释变量之间具备相关性的条件下,极易发生不合理的权重配比。 在能够提前确定解释变量和被解释变量之间存在一定关系的条件下,熵权法并非不可取,我们在此前的报告《如何从利差解构角度看城投区域下沉》中所使用的即为熵权法。但本文与此前报告不同的是,所分析对象在当下市场上尚不存在关联度上的共识,因此熵权法在此处的应用意义不大。 投影寻踪聚类法 上文所述的两种方法,本质问题之一在于数据和指标假设太强,而投影寻踪聚类法一定程度上能克服此类问题。对于数据层面,投影寻踪聚类法属于探索性数据分析法而非证实性数据分析法,对客观数据并不作严格假定,无需样本数据服从某种结构或特征。对于指标假设层面,投影寻踪聚类法亦要求解释变量和被解释变量之间是存在一定关系的,否则也会有误差,但与熵权法理论上无上限误差不同的是,由于其内在本质属于运筹优化问题,单项误差对整体系统结构的影响相对有限。 本质问题之二在于上述两种方法更偏预测,本文寻求的目标并非预测连续变量,更多是估值受影响大小的排序,投影寻踪聚类法的核心在于聚类,它不是一个预测模型,其在给定的指标体系之下通过运筹优化方式将多维度指标投影至一维指标并加以类别上的区分。因此本文选择投影寻踪聚类法作为分析方法。 投影寻踪聚类法的原理在于通过多维度的指标对样本进行区分,本质上是需要寻找一个向量集,使得被区分后的每一类样本集合之间距离足够大的同时每一类样本集合内部密度也足够大。基本公式原理如下,具体代码见附录一: (a1,a 2,a 3. . . .an) (1)样本评价指标集的归一化处理 设各指标值的样本集为 X i j ,意为第i个样本第j个指标值。为消除各指标的量纲和统一 各指标值的变化范围,采用归一化处理: Xi jX M I N j XM A X jX i j 对于正向指标为 ,对于负向指标为 Xi j Xi j XM A X jX M I N j XM A X jX M I N j (2)投影值的计算 (a1,a 2,a 3. . . .an) 设 为投影方向,投影寻踪就是将 X i j 投影到a上,得到一维投影值 : P i n Pi= a X j i j j1 (3)构造投影指标函数,如上文所述,目标函数的本质是要使得被区分后的每一类样本集合之间距离足够大的同时每一类样本集合内部密度也足够大,目标函数如下: SV a r(Pi) n D