摘要 研究导读 本文基于传统意义上的指数净值回归法,以基金日收益率为因变量,各个资产的宽基指数为自变量,拟合线性回归模型,得到的回归系数即为各个资产的仓位。 我们在逐日筛选4个最优指数的情况下,分别使用普通线性回归、岭回归、Lasso回归和二次规划法对四种类型以固收+基金为代表的多元资产型基金产品进行仓位的探测,采用均方根误差衡量探测误差,使用仓位标准差衡量探测仓位的波动水平。通过最后探测的误差和仓位波动水平综合衡量那种模型探测效果较好,并将其用在未来对基金仓位的探测工作中。 优化解决传统线性回归模型的缺陷:多重共线性 人工筛选各资产指数:经统计样本基金的股票持仓在中证800成份股中的规模占比平均约为90%,因此中证800作为首选指数纳入考虑范围,其次,我们还加入了沪深300、中证500、中证1000用以补全股票指数。对于普通债券指数,考虑到市场中债券产品众多,如果用全部债券指数作为自变量进行回归,可能出现误差上升的情况,因此我们选择不同券种+不同期限的债券指数代表。选择中证可转债作为可转债指数 多重共线性:当前市场有将上述线性回归方法应用于基金仓位的初步测算,但是其缺陷在于,自变量间的共线性较强,使得回归问题较为病态,难以得到可靠结果。我们计算2019年10月8日至2022年12月31日各个备选指数的相关系数矩阵,得到的相关系数矩阵如下图,可见股票指数与转债指数相关性较高,利率债指数和信用债指数相关性较高。 逐日筛选最优指数:在高频探测的每一个交易日,我们首先采用了主成分分析筛选主成分指数A,如果A是股票指数、利率债指数和信用债指之一,加上可转债指数,就已经备选了两个指数。在此基础上,剩余的两个指数集则分别与A进行相关性分析,选择与A相关性最小的两个指数;但如果A是可转债指数,则分别选择股票指数集、信用债指数集和可转债指数集中与A相关性最小的指数作为剩下3个备选指数。 模型构建和细则处理 数据准备:截至2022年12月31日(即2022年四季度),我们按照前期报告的筛选方式,首先筛选成立时长超过12个季度的基金(即成立时间早于2019/12/31日,并且在2019年末发布过第一个持仓报告的基金),然后根据过去12个季度的仓位数据得到2022年四季度为稳健型、平衡型和激进型三种标签的固收+基金634只基金,并将其按照wind分类分为混合债券型一级基金、混合债券型二级基金、灵活配置型基金、偏债混合型基金4种类型。 六种模型:我们在筛选最优指数的基础上,基于传统多元线性回归回归模型,构建了如下模型:带约束的普通线性回归、岭回归、Lasso回归、将仓位限制在前后期的二次规划法、将仓位限制在历史最小最大值的二次规划法和结合上期持仓的二次规划法。 基金净值滚动求和:由于债券指数收盘价的波动每天也不大,债券的票息收入使得债券收益率实际上并不是连续的,这些反映在基金层面则是净值的锯齿状形态。综合以上问题,直接选取净值涨跌幅可能会导致回归结果不理想、数据拟合较差的情况,因此我们对这些数据的涨跌幅都做了滚动窗口加总(即过去n日加总)。在考虑滚动窗口时,我们观察了数据的稳定性,并最终选择8日。 回归窗口和加权方式:但实操中投资者通常会做一些久期的选择乃至波段交易。 因此我们需要一个比较长的时间窗口(我们选用的55个交易日,为斐波那契数列中的一个值)。这就与真实情况相比存在比较明显的时滞,于是我们应该对近期样本赋予更高权重,对远期样本赋予更低权重,按时间衰减加权(前面我们已经讨论过),进而采用基于加权最小二乘(WLS)的线性回归模型。理论上来看,WLS回归会比OLS回归更加合理。 模型结果 通过比较9种模型的探测结果,最终发现窗口加权回归下将仓位限制在历史前后期内的二次规划法预测效果最好,其实现样本固收+基金在12个季度的预测精度RMSE均值4.18%,仓位波动(标准差)均值8.74%。由于其采用了未来数据而不具备预测性。因此我们选择效果次之的窗口加权回归下结合上期持仓的二次规划法,其实现样本固收+基金在12个季度的预测精度RMSE均值7.31%,仓位波动(标准差)均值9.18%。而其余的模型Lasso回归、岭回归和普通线性预测表现相近,误差均较大。 风险提示:本报告结论完全基于公开的历史数据进行统计、测算,文中部分数据有一定滞后性,同时存在第三方数据提供不准确风险;对基金产品和基金管理人的研究分析结论并不预示其未来表现,也不能保证未来的可持续性,亦不构成投资收益的保证或投资建议;产品的表现受宏观环境、行业基本面超预期变动、市场波动、风格转换等多重因素影响,存在一定波动风险,投资者需充分认知自身风险偏好以及风险承受能力,基金有风险,投资需谨慎。 1研究导读 随着公募基金资产总额在市场的定价权逐渐增加,市场对公募权益基金持仓还原的关注度越来越高,以多元线性回归模型为核心的高频跟踪模型为主要应用方法。但同时以传统“固收+”产品为代表的多元资产型公募基金,其债权持仓也通常作为机构投资者的主要持仓资产,公募基金只在每个季度末对其资产配置情况进行披露,使得基金投资人和基金管理人之间存在明显的信息不对称性。为了便于在当前FOF组合构建中,提高频次对组合资产配置比例的动态把握,更加紧密跟踪以固收+为代表的多元资产型基金管理者的持仓动态,本文将对固收+基金仓位的测算研究成为一项有意义的工作。 本文研究对象的固收+公募基金,是指基金底层资产由股票资产、债券资产和其他资产构成的公募基金产品。其中债券资产又细分为利率债、信用债、可转债,其他资产又细分为银行存款、买入返售证券、权证等。按照wind分类分为混合债券型一级基金、混合债券型二级基金、灵活配置型基金、偏债混合型基金、中长期纯债基金。 截至2022年12月31日(即2022年四季度),我们按照前期报告的筛选方式,根据过去12个季度的仓位数据得到2022年四季度为稳健型、平衡型、激进型标签的固收+基金634只基金,并将其按照wind分类分为混合债券型一级基金、混合债券型二级基金、灵活配置型基金、偏债混合型基金4种类型。 本文我们基于传统意义上的指数净值回归法,以基金日收益率为因变量,各个资产的宽基指数为自变量,拟合线性回归模型,得到的回归系数即为各个资产的仓位。为了缓解自变量多重共线性问题,我们创新性的使用了PCA得到主成分指数A,并利用相关性的方法筛选了与主成分指数相关性最低的剩余三个指数,基于4个最优指数分别使用普通线性回归、岭回归、Lasso回归和二次规划法。比较上述方法对四种类型以固收+基金为代表的多元资产型基金产品仓位的预测效果,我们采用均方根误差衡量预测误差,使用仓位标准差衡量预测仓位的波动水平,最终发现窗口加权回归下将仓位限制在历史前后期内的二次规划法预测效果最好,其实现样本固收+基金在12个季度的预测精度RMSE均值4.18%,仓位波动(标准差)均值8.74%。由于其采用了未来数据而不具备预测性。因此我们选择效果次之的窗口加权回归下结合上期持仓的二次规划法,其实现样本固收+基金在12个季度的预测精度RMSE均值7.31%,仓位波动(标准差)均值9.18%。而其余的模型Lasso回归、岭回归和普通线性预测表现相近,误差均较大。 2优化解决传统线性回归模型的缺陷:多重共线性 2.1构建传统的线性回归模型 模型构建:构建组合净值涨跌幅与各资产指数到期收益率变化之间的回归方程,回归方程如下: 𝑅= 𝛼 + 𝛽𝑅 + 𝛽𝑅 + 𝛽 𝑅 + 𝛽 𝑅 + 𝜀 𝑡 𝑠,𝑡𝑠,𝑡 𝑟,𝑡𝑟 ,𝑡 𝑐𝑟𝑒𝑑 ,𝑡𝑐𝑟𝑒𝑑,𝑡 𝑐𝑜𝑛𝑣 ,𝑡𝑐𝑜𝑛𝑣,𝑡 其中,因变量𝑅为t时期基金的净值收益率,自变量𝑅为t时期股票指数的收益率,自变量𝑅为t时期利率债指数的收益率,自变量𝑅为t时期信用债指数的收益率,自变量𝑅为t时期可转债指数的收益率,𝜀为残差项,𝛼为截距项,表示基金收益率中无法被债券指数和股票指数解释的部分。 𝑡 𝑠,𝑡 𝑟,𝑡 𝑐𝑟𝑒𝑑,𝑡 𝑐𝑜𝑛𝑣,𝑡 本文主要以传统“固收+”作为代表产品,考虑到不同资产的指数种类繁多,我们需要筛选一部分适用于固收+基金的指数来缩小范围。对于股票指数,经统计样本基金的股票持仓在中证800成份股中的规模占比平均约为90%,因此中证800作为首选指数纳入考虑范围,其次,我们还加入了沪深300、中证500、中证1000用以补全股票指数。对于普通债券指数,我们首先选取了中证信用、中证国债等债券总指数进行回归,但考虑到市场中债券产品众多,如果用全部债券指数作为自变量进行回归,可能出现误差上升的情况,因此我们选择不同券种+不同期限的债券指数代表。对于可转债指数,由于市面上可转债指数较少,并且相较于股票和债券,可转债的品种更少,因此我们选择成分数量最多的中证可转债作为可转债指数。 表1:基金经理在管产品一览 当前市场有将上述线性回归方法应用于基金仓位的初步测算,但是其缺陷在于,自变量间的共线性较强,使得回归问题较为病态,难以得到可靠结果。我们计算2019年10月18日至2022年12月31日各个备选指数的相关系数矩阵,得到的相关系数矩阵如下图,可见股票指数与转债指数相关性较高,利率债指数和信用债指数相关性较高,由于转债指数没有可选择余地,因此我们只能尽可能选择与转债指数相关性最低的股票指数,这样就至少选择了两项指数。那么剩下的信用债和利率债指数的选择就有一个较简单的方法——即选择与股票指数和可转债指数相关性最低,并且簇内相关性最低的信用债指数和利率债指数。 图1:所有备选指数相关系数矩阵 2.2如何选择最优指数解决多重共线性——应用PCF技术逐日筛选最优指数 可以看到,不仅债券指数与股票指数具有一定的相关性,由于债券市场受到系统性影响,各债券指数之间不可避免地存在共线性问题。为了尽可能选择回归效果最好的各资产指数(股票指数、利率债指数、信用债指数、可转债指数)并尽量减小多重共线性带来的影响,我们采用了主成分分析(PCA)技术,其本质就是将所有自变量逐一与因变量进行一元线性回归分析,选择R-square值最大的资产指数A——主成分指数。结合前述的分析,如果A是股票指数、利率债指数和信用债指数,加上可转债指数,就已经备选了两个指数,在此基础上,剩余的两个指数集则分别与A进行相关性分析,选择与A相关性最小的两个指数;但如果A是可转债指数,则分别选择股票指数集、信用债指数集和可转债指数集中与A相关性最小的指数作为剩下3个备选指数。 为了尽可能在各个交易日精细化选择最优指数,我们在本文3.3节的基础上对每个回归窗口筛选最优指数,于是在基金的探测区间的每一个交易日都会有一个最优指数。 图2:逐日筛选最优指数流程 表2:000045.OF部分时点的最优指数 2.3解决多重共线性其他方法——岭回归和Lasso回归 岭回归是当自变量之间出现多重共线性问题时,将原普通多元线性回归的损失函数求解过程转化为一个带条件的最优化问题,岭回归在多元线性回归的损失函数的基础上加入一个惩罚项,限制回归系数的平方和小于某一特定值,表达为系数ω的L2范式(L2为系数的平方)乘以正则化乘以正则化系数λ。岭回归的损失函数可如下表示: 1𝐿(𝜔) = 2𝑖 ∑(𝑦 − 𝑋𝜔)2𝑛 + 𝜆 ∑ 𝜔 2 2 2 2 𝐿(𝜔) = ‖𝑦 − 𝑋𝜔‖+ 𝜆‖𝜔‖ Lasso回归是多元线性的有偏估计,当自变量之间出现多重共线性问题时,在原回归的基础上加入一个惩罚项,限制回归系数的绝对值之和小于某一特定值,压缩掉部分回归系数至零。其中‖𝜔‖表示向量ω的L1范数,即ω各元素绝对值之和;λ超参数,称为正则化系数。λ越大,对回归系数L1范数‖𝜔‖的惩罚力度越大,从而导致更多的回归系数为0,只有少数回归系数为非零值。Lasso回归的损失函数可如下表示: 1𝐿(