公募基金是市场上重要的机构投资者,跟踪公募基金行业仓位的高频变化,能在一定程度上辅助投资者对市场进行研判,为投资提供帮助。目前传统测算方法主要是基于线性回归,但由于高相关性和低信噪比,导致最终结果往往不够理想。本文使用卡尔曼滤波作为核心模型,针对公募基金投资操作特点进行适配,最终探索出一套准确度较高的行业测算方法。在此基础上,本文使用行业测算结果,一方面构建基金行业因子对未来行业指数表现进行预测,另一方面构建基金选股和交易因子建立FOF组合策略。经检验,两个应用维度上均取得了很好效果。 卡尔曼滤波在通信、导航、制导与控制等多领域有广泛的运用,它是一种递归的贝叶斯算法,能够实现数据实时更新和去噪声处理,并对系统状态进行最优估计。用卡尔曼滤波进行基金行业仓位测算有天然的适配性,基金的行业配置比例是状态变量,基金的净值涨跌幅是可观测值,两者满足线性转换关系,并符合模型的假设要求。可以从基金实际行业配置比例出发,通过每日涨跌幅进行校正,最终得到当期配置比例的最优估计。 在具体运用上,我们用持股明细和重仓股补全的行业配置比例作为初始值,并根据基金的行业轮动风格将基金分类,每一类中对超参数分别进行赋值。在行业收益的考量上,我们针对每只基金实际持仓构造了行业指数,并与市场行业指数进行等权结合,兼顾了基金特点与行业全局,充分利用了基金持仓与市场信息。经检验,2017年以来主动偏股基金行业测算的市场平均误差仅为0.38%,优于绝大多数传统测算模型,而且对于预测行业仓位的大幅波动,模型方向识别的准确率更高,另外模型结果整体较为平稳,噪音较低。 行业表现预测 用主动偏股基金各行业的持仓和调仓信息构建的基金行业因子,可以对行业指数未来表现进行有效区分,由因子值分类得出的强势行业与弱势行业之间,未来3个月的收益有显著差异。据此构建的行业多空组合,收益率经t检验显著大于0,且组合2017年以来的年化收益为11.66%,每一年均取得显著的正向收益。 1月模型最新优选的强势行业包括:电子、医药生物、汽车、农林牧渔、煤炭、机械设备、食品饮料、非银金融、家用电器、银行。 FOF策略构建 根据基金的高频行业仓位信息进行业绩归因,构建的基金选股和交易因子,可以衡量管理人的特有能力,通过计算因子的IC和IR值,我们发现因子收益能力较强、稳定性较高。用因子进行基金优选,构造的月频和季频FOF配置策略,长期均稳定战胜偏股基金指数,理想情形下年化超额收益率分别为10.16%和6.84%。 月频换仓模型1月构建FOF组合包括:建信优享科技创新、鹏华创新驱动、摩根领先优选A、富国低碳新经济A、鹏华科技创新、大成成长进取A、广发科技创新A、中信保诚周期轮动A、申万菱信乐成A、大摩数字经济A。 历史数据不被验证导致模型失效、测算模型构建的因子缺乏稳定性、股票市场波动与基金净值调整风险等。 内容目录 第一部分:基于卡尔曼滤波的行业仓位测算3 1、卡尔曼滤波简介3 2、卡尔曼滤波测算行业仓位4 3、行业仓位最新测算结果6 第二部分:基金行业测算的应用拓展8 1、基于基金行业因子的行业表现预测8 2、基于基金选股和交易因子的FOF策略构建10 风险提示14 图表目录 图表1:卡尔曼滤波基金行业仓位测算流程示意图5 图表2:市场平均误差与基金平均误差历史均值5 图表3:基金平均行业仓位测算结果(2023年6月30日)6 图表4:基金最新行业仓位占比(2024年1月12日)7 图表5:制造板块历史配置比例测算7 图表6:消费板块历史配置比例测算7 图表7:医药板块历史配置比例测算8 图表8:科技板块历史配置比例测算8 图表9:金融板块历史配置比例测算8 图表10:周期板块历史配置比例测算8 图表11:基金行业因子分组测试表现9 图表12:行业多空测试净值曲线9 图表13:行业多空测试分年度表现9 图表14:选股和交易因子分组测试净值曲线(短期)10 图表15:选股和交易因子分组测试净值曲线(中期)10 图表16:选股和交易因子测试分组表现(短期)11 图表17:选股和交易因子测试分组表现(中期)11 图表18:月度调仓FOF组合净值曲线11 图表19:月度调仓FOF组合分年度表现12 图表20:月度调仓FOF组合近2期具体持仓12 图表21:季度调仓FOF组合净值曲线13 图表22:季度调仓FOF组合分年度表现13 图表23:季度调仓FOF组合近2期具体持仓14 公募基金作为市场上重要的机构投资者,其包括股票行业仓位配置等投资行为一直被市场所关注,及时捕捉公募基金行业仓位的变化,能在一定程度上辅助投资者对市场进行研判。公募基金实际行业持仓情况一般仅能通过年报、半年报公布的持股明细计算得出,数据频率较低、时间上有滞后性,因此有必要通过量化方法对基金股票行业仓位进行估计,得到更高频且及时的数据。 目前传统测算方法主要是基于线性回归,由于各行业指数的高相关性会带来多重共线性,主流方法会配合Lasso回归、PCA回归、简化变量等手段,缓解方法的不稳定性,但最终结果往往仍然不够理想。究其原因,我们分析是基金净值与股指走势的信噪比较低,传统方法无法从较高的噪音中提取足够的信息。卡尔曼滤波常用于工程控制领域,它能对数据进行实时更新和去噪声处理,并输出状态变量的最优估计。本文使用卡尔曼滤波,针对公募基金投资操作特点进行建模,最终探索出一套准确度较高的行业测算方法。 而且,本文还使用测算结果在两个不同的方向上进行了延展应用。一方面,用主动偏股基金各行业的持仓和调仓信息构建的基金行业因子,可以对行业指数未来表现进行有效区分;另一方面,我们根据基金的高频行业仓位信息进行业绩归因,构建的基金选股和交易因子,理论上可以衡量管理人的特有能力,用其作为选基因子,我们发现因子收益能力较强、稳定性较高,单因子构建的FOF组合长期稳定战胜偏股基金指数。 1、卡尔曼滤波简介 卡尔曼滤波在20世纪50年代由几位不同研究人员独立发明,并以鲁道夫·卡尔曼的名字命名。卡尔曼滤波是一种基于高斯噪声线性动态系统的最小方差状态估计器,其特点是在线性状态空间表示基础上,对采集数据进行实时更新和去噪声处理,输出隐含状态的最优估计。由于观测数据中包括系统中的噪声和干扰影响,最优估计可以看作滤波过程。鉴于该过程占用内存小,除了前一个状态量外,不需要保留其它历史数据,同时具有推理速度快的优点,卡尔曼滤波器在通信、导航、制导与控制等多领域得到广泛应用。除此之外,卡尔曼滤波在经济金融领域也有广泛应用,对时间序列模型预测有优化作用,提高预测精度。 一个经典的控制领域的模型可以帮助我们更好的理解卡尔曼滤波的应用场景。假定有一个小车在平面上运动,已知它当前的位置、速度、加速度,我们的目标是预测小车下一时刻的位置与速度。理论上高中物理公式可以帮助我们解决这个问题,我们通过将数据代入公式,即“转移方程”,就可以计算出想要的结果。但现实世界上,路面的光滑程度、风速等都会影响小车的实际行驶情况,转移方程不可避免的会出现误差,即“过程误差”,计算得到的结果也会不够准确。如果我们同时有一个观测器,它可以观测小车的位置和速度,并实时传输观测到的数据,由于观测精度等问题,它同样会出现“观测误差”,也不应直接依赖观测的结果。卡尔曼滤波的作用,就是在同时存在过程误差与观测误差时,用高斯联合分布寻找最小误差的思想,找到一个最优的估计。 展开来说,卡尔曼滤波是一种递归的贝叶斯算法,它通过线性的状态转移方程和观测方程,结合系统输入的观测数据,对系统状态进行最优估计,卡尔曼滤波也可以被认为是一种数据融合算法。卡尔曼滤波算法主要包括两个步骤,即预测与校正。在预测算法中,使用状态转移矩阵和控制矩阵对下一时刻的状态进行预测,得到先验估计值;在校正算法中,先根据观测转移矩阵和系统误差来计算卡尔曼增益,再利用卡尔曼增益和观测数据对先验估计值进行校正,得到后验估计值,即最优估计值。 可以用数学来表示卡尔曼滤波,若定义状态变量为𝑥𝑘,可观测的值为𝑧𝑘,过程误差与观察误差分别是𝑤�和𝑣𝑘,建立如下状态空间方程: 𝑥�=𝐴𝑥𝑘−1+𝐵𝑢𝑘−1+𝑤𝑘,𝑤𝑘~𝑁(0,𝑄)(1) 𝑧�=𝐻𝑥�+𝑣𝑘,𝑣𝑘~𝑁(0,𝑅)(2) 等式(1)为状态转移方程,它表示状态变量向量从�−1时刻转移到�时刻服从的自回归过程,用矩阵�刻画两个连续状态之间的关系,�也被称为状态转移矩阵,而𝑢𝑘−1是对状态变量所施加的控制(如上述例子中的小车加速度), �是控制矩阵,过程误差𝑤�服从协方差为�的正态分布。等式(2)将观测数据与状态变量联系起来,观测值是由状态变量经过线性变换再加上观测误差得到的,�是观测转移矩阵,观测误差𝑣�服从协方差为�的正态分布。卡尔曼滤波的主要思想是权衡当前观察值𝑧�和根据历史信息获得的状态变量预测值,并给出一个状态变量的最优估计𝑥̂𝑘,来尽可能逼近真实值𝑥𝑘,使得误差最小。 卡尔曼滤波的应用基于以下三个假设前提: •当前时刻状态只和上一时刻状态有关。 •模型和系统均满足线性关系。 •误差符合正态分布、且独立。 以上模型假设和正态分布具备重要优良性质:正态分布的共轭先验是正态分布,两个正态分布的乘积仍然是正态分布。因此,当观测变量和状态变量联合服从正态分布时,就可以计算出给定观测变量时,状态变量的条件概率密度、条件均值和条件方差。 本文给出卡尔曼滤波的5个重要递归等式: � 𝑥̂−=𝐴𝑥̂𝑘−1+𝐵𝑢𝑘−1(3) � 𝑃−=𝐴𝑃𝑘−1𝐴�+�(4) � 式(3)和式(4)是两个预测方程,式(3)是根据�−1期状态变量的最优估计𝑥̂𝑘−1和状态转移方程,获得�期状态变量的先验分布,先验分布的期望即是�期状态变量的预测值𝑥̂−,也称为先验估计值。式(4)表示�期的真实值 和预测值的先验误差协方差矩阵𝑃−,取决于�−1期误差的协方差矩阵�和过程误差�。 �𝑘−1 𝑥̂�=𝑥̂−+𝑘𝑘(𝑧�−𝐻𝑥̂−)(5) �� � 𝑃�=(�−𝑘𝑘𝐻)𝑃−(6) 𝑘�=� 𝑃−𝐻� � 𝐻𝑃−𝐻𝑇+� (7) � � � 式(5)-式(7)是三个校正方程,式(5)根据当前观察值𝑧�和测量方程对先验估计值𝑥̂−进行修正,获得�期状态变量的后验分布,即状态变量的最优估计值𝑥̂�。可以看到状态变量的最优估计值等于先验估计值与当期观测数据超预期部分的加权和,权重为卡尔曼增益𝑘�。式(6)根据真实值和最优估计值的先验误差协方差矩阵,对后验误差协方差矩阵进行估计。式(7)是卡尔曼增益的计算公式,由于𝑃−主要取决于过程误差𝑄,因此卡尔曼增益主要由过程误差�与观测误差�的大小关系决定,过程误差�越大,最优估计值𝑥̂�就越依赖于观测值,观测误差�越大,最优估计值𝑥̂�就更接近先验估计值𝑥̂−。 具备以上5个重要等式,我们即可对状态变量进行预测与校正。在运行卡尔曼滤波算法前,我们还需要设定模型的超参数,即过程误差�与观测误差�的取值,当更信任模型估计值时,应将�取小一些,�取大一些,当更信任观测值时,则与之相反。另一方面,还需给定模型的初始值,即初始状态变量及协方差矩阵。然后便可以开始运行卡尔曼滤波,循环使用公式(3)-(7)进行预测,得到每一期的状态变量。 2、卡尔曼滤波测算行业仓位 用卡尔曼滤波进行基金行业仓位测算有天然的适配性。首先,基金在当期的行业配置比例应当与上一期较为接近,用各行业的仓位作为状态变量,可以直接代入状态转移方程;其次,基金每日的涨跌幅是可观测值,理论上是各行业涨跌幅的加权汇总值,它与行业仓位满足线性转换关系,行业的涨跌幅就是观测转移矩阵。本部分中,我们介绍卡尔曼滤波在行业仓位测算的具体运用,并检验其有效性。 用𝑤�代表基金在各行业的配置权重向量,即状态变量,对于状态转移方程,我们可以简化地认为𝑤�服从随机游走过程,因此控制向量和控制矩阵皆可省略