基于复合模型构造行业ETF组合 ——“学海拾珠”系列之一百八十九 金融工程 专题报告 报告日期:2024-05-22 主要观点: 分析师:严佳炜 执业证书号:S0010520070001邮箱:yanjw@hazq.com 分析师:钱静闲 执业证书号:S0010522090002邮箱:qianjx@hazq.com 相关报告 1.《行业羊群行为与动量策略——“学海拾珠”系列之一百八十八》 2.《强制分红与公司投资:基于多国数据分析——“学海拾珠”系列之一百八十七》 3.《基金中的“伪择时”现象——“学海拾珠”系列之一百八十六》 本篇是“学海拾珠”系列第一百八十九篇,文献深入探讨了将多种金融模型综合作用于美国行业ETF基金来构建投资组合的效果。研究发现,采用基于期权隐含波动率、风险转换和随机占优约束的方法,能够有效处理偏度和尾部风险,且组合表现出较强的样本外业绩。此外,文章还探讨了非高斯的多元copula在资产回报的非线性相关性中的应用,尽管存在局限性,但提供了强有力的非线性相关证据。整体而言,文献不仅提供了优化ETF组合的方法,还为资产配置提供了新的视角和深入的理论支持。回到国内市场,类似的金融模型也可用于ETF组合构建。 综合策略可优化行业ETF的投资组合配置 组合的投资范围包括美国的九只流动性较好的行业ETF,分别为材料(XLB)、消费品(XLP)、能源(XLE)、金融(XLF)、工业(XLI)、科技(XLK)、公用事业(XLU)、可选消费品(XLY)和医疗保健(XLV),它们追踪相应的S&P500行业指数,总体覆盖了几乎所有的S&P500成分股(SPX)。 采用Black-Scholes-Merton模型和Heston模型,结合实际波动率和风险溢价的统计校正,对ETF进行定价,并应用这些定价模型来预测市场价格的概率分布。通过这种方法试图解决传统投资组合选择面临的高估计误差和交易成本问题。 组合业绩结果 从2001年1月到2020年12月,SPX平均每月回报为0.627%,标准差为5.32%,等权重投资组合(EWP)平均回报显著提高而波动率水平基本不改变。基于期权数据、Heston模型、Gaussiancopula和SD优 4《. DiffsFormer:基于扩散模型的因子 化的综合策略的的平均回报率为每月1.23%,标准差5.13%,风险调整 增强框架——“学海拾珠”系列之一百八十�》 5.《深度投资组合管理中的对比学习和奖励平滑——“学海拾珠”系列之一百八十四》 6.《基金业绩基准之外的共同持股意味着什么?——“学海拾珠”系列之一百八十三》 7.《基于网络和机器学习的因子、资产和混合配置——“学海拾珠”系列之一百八十二》 后的业绩优于基准和其他对比策略,也显著优于传统的主动投资策略 (min-Var/Mean-Var)。 风险提示 文献结论基于历史数据与海外文献进行总结;不构成任何投资建议。 敬请参阅末页重要声明及评级说明证券研究报告 正文目录 1引言4 2方法5 2.1估计各行业ETF的边际RWDS7 2.2使用COPULA模型估计基金之间的相关性结构7 2.3从联合分布中获取输入样本8 2.4带有SD约束的投资组合优化8 3样本构建8 3.1数据8 3.2期权隐含的边际密度函数10 3.3使用COPULAS估计联合密度分布11 4投资组合业绩分析12 4.1评估方法12 4.2基本情况13 4.3业绩归因14 4.4交易成本与再平衡频率16 4.5在多种市场情况下的投资组合业绩17 5结论18 风险提示:19 图表目录 图表1文章框架4 图表2供对比的主动策略6 图表3参数及变量符号6 图表4每日历史回报率数据的描述性统计9 图表5无条件PEARSON相关系数10 图表6基于HESTON模型的经验历史密度、风险中性和RWD的比较11 图表7使用加权似然比检验比较密度函数预测11 图表8COPULAS拟合分析12 图表9样本外业绩分析13 图表102001年至2020年期间各对比策略的累计回报14 图表11RW随机过程、COPULA和选择准则对期权隐含策略的增量效应15 图表12RN随机过程、COPULA和选择准则对期权隐含策略的增量效应15 图表13扣除交易成本后的样本外业绩(月度再平衡)16 图表14扣除交易成本后的样本外业绩(季度再平衡)17 图表15扣除交易成本后的样本外业绩(年度再平衡)17 图表16在高VIX与低VIX下的样本外业绩18 1引言 图表1文章框架 资料来源:华安证券研究所整理 基于计量经济学和梳理过程的投资组合构建往往面临风险控制、对估计标准误差敏感、交易成本高的挑战。尽管一些简单的启发式投资策略——例如等权多空组合(JegadeeshandTitman,1993年)和朴素的分散化策略(DeMiguel等人,2009年)——在样本外表现也不错,但文献尝试使用多种模型与优化方法来改进这些启发式策略。 文献将金融建模方法用于美国市场的行业ETF,来优化投资组合配置,并评估 其在调整风险和交易成本后的表现。研究构建了一个涵盖2000-2020年期间九只流动性较好的ETF的现货和期权数据的综合数据集,并将市场期权价格、Heston随机波动模型、风险溢价转换、copulas和带有随机占优约束的优化技术结合成一个整体方法。文献提出了一种灵活的方法来预测行业基金回报的联合概率分布,分别使用不同模型和数据类型建模个别基金的边际分布和基金之间的相关性结构。 与历史数据不同,期权数据具有内在的前瞻性,反映了市场对未来价格的预期,对于边际概率的估计,文献考虑了两种最广泛使用的期权定价模型:假设价格对数正态分布的Black-Scholes-Merton(BSM)模型和包含随机波动成分的Heston(1993) 模型。为了将风险中性分布(risk-neutraldistribution,RND)转换为现实世界分布 (real-worlddistribution,RWD),分别对BSM和Heston模型使用统计校准和风险溢价转换。 此外,文献还考虑了两种相关性结构的分布:Gaussian(线性)copula和R-Vinecopula,后者能更好地建模股票回报之间的非线性相关。为了考虑偏度和下行风险,文献应用了带有二阶随机占优(second-degreeStochasticDominance,SD)约束的投资组合优化方法,这种优化方法确保最佳投资组合在所有可能的回报阈值下的下行风险低于基准,它是所有具有凹效用函数的避险投资者的首选。 结合这些方法的投资策略显著优于S&P500指数和各种简单的主动策略,包括 简单的行业动量策略、最小方差和均值-方差优化策略。逐步分解不同方法的贡献度,发现期权隐含分布、随机波动模型、风险溢价转换和随机占优优化在实现这些结果中的重要性,强调了使用集成建模方法的重要性。 文献的研究与多个领域的文献相关,包括期权隐含投资组合选择、基于copula的投资组合优化、带有随机占优约束的投资组合优化、基于随机占优的期权定价和稳健投资组合管理,是首个将上述所有方法整合成一个可行、连贯和有效的方法的研究,结合低成本ETF、适度的再平衡频率和公开数据来源,使得这些策略在实际环境中可行。 此外,文献提出的方法预计可以应用于其他资产配置问题,如货币对和商品期货的选择。这些问题类似于股票行业ETF选择的问题,因为维度有限、交易成本相对较低且在许多情况下有流动性良好的交易所交易期权。然而,应用于大量个股似乎难以实现。计算复杂性非主要问题,但估计误差和交易成本预计将远高于行业ETF、货币对和商品期货,特别是对于小盘股。此外,仅有一部分个股有流动性良好的期权。 2方法 研究方法可以分为两大部分。首先,预测九个行业基金的联合概率分布以及基准的边际概率分布。其次,利用预测的基金和基准回报概率对基金投资组合的数值进行优化。对于每个再平衡日期t,估计窗口𝐼�包括前12个月的每日现货和期权价格数据(预测周期和持有周期都为一个月)。此外,研究还会用季度和年度再平衡的结果来评估投资组合换手率和交易成本的影响。 其中每次投资组合形成日期(t)的四个步骤是: (1)估计每个ETF和基准的边际RWDs; (2)使用copula模型估计基金回报的相关性结构; (3)使用随机抽样离散化ETF的联合分布; (4)使用随机占优约束(SDconstraints)优化投资组合。 图表2为供对比的主动投资策略所用方法的说明,并将与被动策略(SPX被动指数和等权组合equally-weightedportfolio,EWP)做作比较;图表3总结了参数和变量的符号。 图表2供对比的主动策略 资料来源:《Afinancialmodelingapproachtoindustryexchange-tradedfundsselection》,华安证券研究所 图表3参数及变量符号 资料来源:《Afinancialmodelingapproachtoindustryexchange-tradedfundsselection》,华安证券研究所 2.1估计各行业ETF的边际RWDs 此研究用了三种方法来估计各行业ETF的边际RWDs。前两种方法将期权定价模型(BSM模型和Heston模型)应用到ETF期权市场价格上。第三个方法(使用GJR-GARCH模型)来进行时间序列估计。BSM模型假设的是独立同分布过程,而Heston和GARCH模型则是基于两种不同的时间变化波动过程。由于波动率聚集是数据的一个已知特征,所以Heston和GARCH模型将会提供更优的预测和投资组合业绩。 期权定价方法生成的RND估计需要转换为RWD估计。因为RND有一个明显的缺陷,即所有资产的风险溢价为零,且风险中性方差和峰度通常高于现实世界的对应值。此外,RND的负偏度通常高于现实世界的分布。 所以文献采用了Atiya和Wall(2009)的方法,即通过最大似然估计来调整风险溢价,每个模型的具体步骤如下: a.BSM模型:1)对于每个再平衡日期,在估计窗口中找到最近到期期权的日终隐含方差;2)计算风险中性的对数正态分布函数,并对所有再平衡日期进行预测。3)计算beta分布的参数,通过最大化一个时期前价格的似然函数进行校准。 b.Heston模型:1)使用筛选后的期权合约数据,计算Heston模型参数(如初始波动率、均值回复速度、长期方差、波动率、相关性等),通过最小化均方误差进行调整;2)使用估计窗口和计算的参数,计算风险溢价漂移,并通过最大化似然性进行校准。 c.GJR-GARCH(1,1,1)模型:使用估计窗口𝐼𝑡,估计参数向量(如波动率、均值回复速度、波动率持久性等),通过最大化似然函数进行参数估计。 2.2使用copula模型估计基金之间的相关性结构 接着使用了两种多变量copula模型来估计基金的联合分布,第一种是传统的Gaussiancopula模型,通过Pearson相关系数来建模线性相关性;第二种是正则vine(R-vine)copula模型,可以对基金回报间非线性的相关性进行建模,此外,R-Vinecopula可以模拟较低的尾部相关性,这种相关性通常出现在股票收益中,因为在经济不景气时期相关性会增加(AngandChen,2002;Patton,2004;Low等人,2013)。 R-Vinecopula基于将联合分布分解为条件双变量(对)协程的乘积,每对关系都可以使用各种类型的二元Copula来建模。R-Vinecopula是用8棵相连的树的序列来表示成对copula结构,其中树的数量比资产的数量少一棵。 为了拟合R-Vinecopula,文献参考Dissmann等人(2013年)的算法。该算法步骤为: (1)使用最大生成树算法选择树结构,权重等于Kendall相关性; (2)根据Akaike准则从49个二元copulas中选择配对copula; (3