从隐含波动率到价格的预测 期权策略系列观察(三) 2024年08月20日 证券研究报告|私募基金专题报告 分析师:张帅 分析师登记编码:S0890524080001电话:021-20321077 邮箱: zhangshuai564576@cnhbstock.com 销售服务电话: 021-20515355 相关研究报告 1、《隐含波动率跟踪与期权产品分类—期权策略系列观察(二)》2024-07-31 2、《期权价值的理论与现实—期权策略系列观察(一)》2024-07-05 3、《配套新“国九条”,再提程序化交易 —《证券市场程序化交易管理规定(试行) (征求意见稿)》点评》2024-04-15 4、《基于因子维度,构建量化CTA策略评价模型—私募基金专题报告》2024-01-02 5、《私募基金供给侧改革加速—《私募投资基金监督管理办法(征求意见稿)》点评》2023-12-19 投资要点 期权作为参与者专业程度较高的小众市场,其成交信息是否具有“聪明钱”效应值得探究。在2024年7月31日发布的《期权策略系列观察(二)》当中我们对每一时刻的期权隐波进行了标准化,从而为后续的策略开发创造了条件。本文在此基础上以50ETF为例尝试对隐含波动率和现货价格本身进行预测。 本文采用随机森林、XGBoost和MLP三种模型进行测试,不对单个输入特征的预测效果进行过滤,只要求其含义明确,并尽可能对市场中不相关的信息形成覆盖,共构建了16个涉及动量、隐波高低水平、波动率曲面形状、量价相关性的特征,除动量存在聚集效应之外,大部分特征相关性较低。 在预测隐含波动率时将目标设置为未来20个交易日的隐波变化差值。从结果来看随机森林和XGBoost体现出了较强的捕捉波动率上行的能力,TPR达到70%,不过也以在波动率下行时的损失为代价,总体胜率在60%左右。XGBoost体现出的能力更加均衡,不过波动更大。对于MLP来说,在这个小样本问题中体现出的预测能力相对一般。 预测价格时目标设置为未来5天的收益率。相比预测波动率,对价格的预测要困难许多,随机森林和XGBoost的预测胜率大幅下降。决策树类的模型更偏向于做多,MLP更偏向于做空。从MLP的TPR和TNR可以看出MLP全程发出看空信号,在此小样本问题中缺乏预测能力。随机森林与XGBoost模型在价格预测上发出的信号胜率一般,不过能在抓住大部分上涨行情的情况下规避掉一些下行风险,择时后收益表现相比50ETF本身提升明显,单纯做多的年化超额收益在10%左右,多空组合的年化超额收益在20%左右。XGBoost在这个问题上同样体现出了更强的预测能力和更高的波动性。 风险提示:本报告涉及衍生品相关内容,若您非合格投资者,请勿阅读本报告。本报告所载的信息均来源于已公开信息,但本公司对这些信息的准确性及完整性不作保证。本报告部分结论依赖研究假设和估算方法,可能产生一定分析偏差。本报告模拟组合结果基于对应模型计算,需警惕模型失效的风险,文中涉及的模型结果,仅供研究参考,不构成投资建议。 内容目录 1.特征构建3 2.波动率与价格预测5 3.风险提示7 图表目录 图1:50ETF收盘价、标准化隐波、隔季合约隐波、历史波动率走势3 图2:2016年2月至2024年8月不同特征的相关系数4 图3:随机森林与XGBoost对50ETF隐波的预测走势5 图4:基于随机森林对50ETF进行择时的策略净值(做多)6 图5:基于XGBoost对50ETF进行择时的策略净值(做多)6 图6:基于随机森林对50ETF进行择时的策略净值(多空)7 图7:基于XGBoost对50ETF进行择时的策略净值(多空)7 表1:基于期权量价信息的特征含义与计算说明4 表2:2019年1月至2024年8月50ETF期权隐含波动率预测准确性评估5 表3:2021年1月至2024年8月50ETF收益率预测准确性评估6 表4:2021年1月至2024年8月对50ETF进行择时的超额收益表现(做多)6 表5:2021年1月至2024年8月对50ETF进行择时的超额收益表现(多空)7 在2024年7月5日发布的《期权策略系列观察(一)》中我们介绍了期权定价的基本原理和一些现实影响因素。总体而言隐含波动率是期权的核心,对隐波的把握是利用期权进行风险对冲、策略开发的关键。 期权价格走势依赖现货市场行情,衍生品之间也是相互关联的,例如期货的升贴水会对期权造成影响。而期权作为参与者专业程度较高的小众市场,其成交信息是否具有“聪明钱”效应值得探究。 但是期权合约是有生命周期的,现实世界中期权的行权价格数量也有限,这给通过隐波感知市场情绪以及建立期权市场和现货市场的稳定联系创造了困难。在2024年7月31日发布的 《期权策略系列观察(二)》当中我们对每一时刻的期权隐波进行了标准化,从而为后续的策略开发创造了条件。本文在此基础上尝试对隐含波动率和现货价格本身进行预测。 1.特征构建 在多因子方法论中,一般希望单因子本身有较为明显的预测能力,同时不同因子之间的相关性尽可能较低。在本文对隐波和现货价格进行预测的场景当中,样本数量可以满足简单的机器学习模型,而输入特征主要从标的和期权的日频量价信息中衍生而来,如果进行严格的IC筛选,又会使得用于预测的特征变少,影响预测效果。本文不对初始信息做深入的数据挖掘,也不对本身的预测效果进行要求,要求其含义明确,并尽可能对市场中不相关的信息形成覆盖。 由于商品期权不同到期日合约的挂钩标的为相应的期货合约,而金融期权的挂钩标的统一,且50ETF期权成立时间最长、成交量排名靠前,因此本文从特征构建到隐波和价格的预测都以50ETF期权为例。 《期权策略系列观察(二)》中标准化的30天到期平值期权的隐波由当月和下月行权价格距离标的价格最近的购、沽合约拼接而来,还可以对其他数据进行类似处理,获得每一时刻与波动率相关的性质一致的量价信息。 标准化隐波(IV)、隔季合约隐波(IV_F)、标的历史波动率(HV)和标的价格(Price)的走势如下,可以发现波动率总体呈现“牛短熊长”,然后历史波动率大部分时间低于隐含波动率,这是卖权类策略的溢价来源,在不发生极端行情时,隔季合约的隐波一般也高于标准化的近月合约隐波。 图1:50ETF收盘价、标准化隐波、隔季合约隐波、历史波动率走势 资料来源:iFinD,华宝证券研究创新部 接下来对基础数据进行加工,确保IV、IV_F、HV、Price等数据以不含明显趋势的方式计入模型,虽然机器学习模型中对数据平稳性的要求不如传统计量模型严格,但处理方式仍会对模型效果产生比较显著的影响。 表1:基于期权量价信息的特征含义与计算说明 特征名称 含义 计算说明 IV_Quantile 标准化隐波历史分位 对过去一年标准化隐波计算Zscore IV_Std 标准化隐波的波动率 对过去20个交易日标准化隐波计算标准差 IV_HV_Diff 标准化隐波与历史波动率的差值 历史波动率利用过去20个交易日数据计算 IV_FN_Diff 隔季合约和标准化合约的隐波差值 —— IV_CPD 看涨期权和看跌期权隐波的差值 标准化为30天到期平值合约的看涨看跌隐波差值 Cskew 看涨期权偏度 虚两档看涨期权与平值看涨期权的隐波差值,标准化为30天到期 Pskew 看跌期权偏度 虚两档看跌期权与平值期权的隐波差值,标准化为30天到期 PCR 看跌期权和看涨期权持仓量比值 标准化为30天到期 Corr_IV_Price 标准化隐波与标的价格的相关性 利用过去20个交易日数据进行计算 Corr_IV_OI 标准化隐波与品种持仓量的相关性 利用过去20个交易日数据计算,其中持仓量先进行月度平滑 Mom_IV_S 隐含波动率短期动量 过去5天标准化隐波变化差值 Mom_IV_M 隐含波动率中期动量 过去10天标准化隐波变化差值 Mom_IV_L 隐含波动率长期动量 过去20天标准化隐波变化差值 Mom_Price_S 价格短期动量 过去5天标的收益率 Mom_Price_M 价格中期动量 过去10天标的收益率 Mom_Price_L 价格长期动量 过去20天标的收益率 资料来源:华宝证券研究创新部 经过初步处理得到共16个特征,其中IV_Quantile、IV_Std代表隐波整体的高低和波动水平,IV_HV_Diff引入了隐波和历史波动率差值的均值回复现象,IV_FN_Diff、IV_CPD、Cskew、Pskew刻画了波动率曲面的特征,PCR通过看涨、看跌期权的相对持仓描述市场对未来走势的看法,Corr_IV_Price、Corr_IV_OI分别是期权与标的之间的价格相关性以及期权本身的量价相关性,此外还有比较常规的隐波和标的价格不同期限的动量。 各个特征的相关性如下,可以发现除了不同期限的动量存在一定聚集现象之外,大部分特征之间都没有明显的相关性。 图2:2016年2月至2024年8月不同特征的相关系数 资料来源:iFinD,华宝证券研究创新部 2.波动率与价格预测 本文选取随机森林、XGBoost和MLP这三种比较有代表性的模型进行测试。随机森林将不同的决策树并联训练,启发不同的决策树搜寻不同的路径最后进行加总,增强结果的稳健性。XGBoost将决策树进行串联,后一棵决策树在前一棵误差的基础上进行训练,提升拟合效果。MLP将信息在多层神经元之间前向传播,反向优化参数权重,是各种深度学习模型的雏形。 在模型参数上,由于样本数量有限,为避免过拟合,模型结构设置整体比较简单。预测隐含波动率时,随机森林和XGboost的决策树最大深度分别为8和4,MLP的隐藏层为8×8,由于MLP对随机种子较为敏感,预测值取随机种子为2024-2033的平均结果。 除了确定输入特征和模型之外,还需要合理设置预测目标。一般来说,波动率预测要比价格预测更加容易,而且波动率变化的大小对于构建期权策略也是十分有价值的,在预测隐含波动率时将目标设置为未来20个交易日的隐波变化差值,为了避免单期的特征出现异常波动, 将过去20个交易日的特征进行半衰期10日的加权平滑后输入模型。训练集长度为3年,每1 年滚动训练1次。结果如下: 表2:2019年1月至2024年8月50ETF期权隐含波动率预测准确性评估 模型名称 MSE Accuracy TPR TNR RF 17.89 60.48% 74.73% 50.13% XGB 20.68 62.04% 69.26% 56.79% MLP —— 55.42% 52.12% 57.82% 资料来源:iFinD,华宝证券研究创新部 注:MLP取多随机种子的结果平均之后,绝对值没有明显意义 MSE代表测试集中预测值与真实值的均方误差,Accuracy代表预测的方向胜率,TPR代表波动率上升样本中预测为上升的概率,TNR代表波动率下降样本中预测为下降的概率。 在该隐波预测场景中,模型需要在样本的数量和特殊性之间做出权衡,一方面降波的样本更多,另一方面升波样本的标签对损失函数影响更大。从结果来看,两类以决策树为基础的模型更加偏向样本的质量,而神经网络类的MLP更加偏向样本的数量。随机森林和XGBoost都体现出了较强的捕捉波动率上行的能力,不过也以在波动率下行时的损失为代价,总体XGBoost体现出的能力更加均衡。而对于MLP来说,在这个小样本问题中体现出的预测能力相对一般。 图3:随机森林与XGBoost对50ETF隐波的预测走势 资料来源:iFinD,华宝证券研究创新部 上图展示了随机森林和XGBoost的预测结果,可以看出XGBoost的波动更大,二者的输出整体较为相似,尤其是在几次与真实值背离比较明显的情况下,随机森林和XGBoost错误方式也比较类似,说明两种基于决策树的模型对于数据的挖掘模式相近。 在预测价格时,由于市场容易呈现连续的上涨或下跌行情,收益率的时间分布相比波动率更加不均衡,将训练集设置为5年。预测