研究院量化组 研究员 高天越 0755-23887993 gaotianyue@htfc.com从业资格号:F3055799投资咨询号:Z0016156 联系人 李光庭 0755-23887993 liguangting@htfc.com从业资格号:F03108562 李逸资 0755-23887993 liyizi@htfc.com 从业资格号:F03105861 投资咨询业务资格: 证监许可【2011】1289号 期货研究报告|量化专题报告2023-07-25 既达万顷,又需见微 ——基于AI文本挖掘的波动率预测模型 摘要 波动率在期权和期货交易中都起到了关键作用,因此对波动率的研究具有重要意义。本文将研究重心聚焦在低频波动率上,进行了如下研究并得�了一定结论: 1)文本挖掘方法能够获取较全面的商品影响因素。 2)预测模型优于均值回归模型并�现了与历史波动率一样的翘尾效应。 3)在俄乌冲突前预测模型通过小众因子提前捕捉到了原油价格的异动。 4)根据最新预测情况,绝大部分商品的未来月波动率都将上升。 研究证明预测模型对于低频波动率的预测较准确,并且在识别非线性因素和尾部风险以及归因分析中更具优势。 核心观点 波动率的判断在实际业务中具备较大的意义,它会显著影响期货做市商交易的成本与风险,也是期权定价的关键部分。本文研究的重点是对较低频的以日频数据计算的波动率,以月度为时间区间的波动率进行预测。 1)对搜集网络上的各类商品品种新闻并采用DP-Sent-LDA机器学习模型进行文本挖掘分析,得�30多种商品影响因素,并对影响因素进行分类及寻找相应的代理指标用以进行数据分析。 2)对代理指标的数据进行日频转化、计算其波动率、z-score标准化等处理,代入回归模型得到预测波动率变化,再加上过去20日波动率最终预测未来20日的波动率。 3)预测模型的拟合优度要高于均值回归模型,通过引入更多影响波动率的重要指标,�现了和真实值一样的翘尾效应,部分捕捉到了均值回归无法捕捉的影响因子与波动率之间的非线性关系。 4)在俄乌冲突中预测模型对原油波动率的预测由于运输费用这一小众因子提前�现了反转,导致了该指标的波动率加大,从而提高了整体的预测效果。 5)模型最新预测结果表明,大部分品种未来波动率都将上升。 目录 摘要1 核心观点1 低频波动率影响因素4 ■波动率的研究意义4 ■研究方法4 1.确立文本挖掘模型4 2.挖掘资讯识别影响因素5 ■影响因素预测波动率实证研究7 1.寻找代理指标7 2.数据处理8 3.时间序列交叉验证9 4.预测模型与均值回归模型对比10 5.案例分析12 6.归因分析13 7.最新预测情况14 ■总结15 图表 图1:LDA、SENT-LDA和DP-SENT-LDA的图形模型表示5 图2:商品影响因素词云6 图3:商品波动率影响因素7 图4:原油影响因素及代理指标8 图5:数据处理与波动率预测9 图6:预测集散点图与回归曲线9 图7:均值回归模型预测表现10 图8:真实值、预测模型与均值回归模型对比11 图9:未来波动变化与地缘政治、历史趋势预测的波动率对比图12 图10:地缘政治预测波动率�现了滞后性13 图11:运输价格因子提前捕捉到原油波动率的异动13 图12:监控原油影响因素14 图13:各品种本期预测波动率涨跌幅15 表1:模型预测方向性表现丨单位:个10 表2:原油当期影响因素排序11 低频波动率影响因素 ■波动率的研究意义 波动率是金融资产价格变动的速率,绝大多数形式的投资都会在某种程度上受到波动率的影响。波动率拥有短期聚集性和长期均值回归的特点。在相对较短的时间内,由于市场情绪、新闻事件和宏观经济指标多种因素影响,价格波动可能会更加剧烈。但市场具有一定的稳定性和均衡性,因此在经历了一段时间的高波动率或低波动率后,最终波动率将会回到其长期平均水平。 波动率的预测在实际交易场景中具备较大的意义。对于做市商而言,波动率会显著影响交易的成本与风险。例如,当市场�现单边趋势行情,波动率大幅抬升时,做市商往往会积累大量单边头寸,在承担了更大的价格风险的同时也提高了对冲成本。对于期权交易者而言,波动率是期权定价的关键,期权的价值部分取决于未来股价的不确定性,而这种不确定性就是通过波动性来衡量的。因此,对于波动率的衡量和预测在衍生品交易中起到了举足轻重的作用。 ■研究方法 针对波动率的研究和针对价格的研究并没有本质上的区别,本文研究的重点是对较低频的以日频数据计算波动率(close-to-close),以月度为时间区间的波动率进行预测。研究低频波动率需要考虑到两个特点,第一是较高频领域使用的一些盘口因子不太适用此类场景,第二是对于低频波动率,影响因素比高频会多�很多。任何可能冲击商品的事件,比如疫情、战争、加息等等,都会对市场波动造成很大的影响,这需要对市场有一个全面而深入的了解和跟踪。 为了全面深刻地理解哪些因素可能影响商品市场,我们采用了《IdentifyingtheInfluentialFactorsofCommodityFuturesthroughaNewTextMiningApproach》这篇文献的方法,基于文本挖掘方法去识别波动影响因素。随后,我们使用这些影响因素去对波动率进行预测。 1.确立文本挖掘模型 文献采用的文本挖掘模型是DP-Sent-LDA模型,这是基于Sent-LDA模型基本原理开发的主题模型。作为目前最常用的主题模型,LDA是一种无监督贝叶斯机器学习模型,用于识别一组文档中包含的主题,LDA根据每个主题的单词的离散概率分布自动生成主题摘要,并进一步推断每个文档的主题离散分布。但LDA基于“词袋”假设,即可以忽略文档中单词的顺序,这可能会导致句子中的每个单词都从不同的主题中采样的场景,然而,在某些情况下,文档中的每个句子仅与一个主题有关。因此,Sent-LDA模型被提�来考虑句子之间的边界,并假设句子中的所有单词都 是从同一主题中采样的,在这种“每句话一个主题”的假设下,不同句子中的词不再可以互换。 DP-Sent-LDA在Sent-LDA的基础上进一步改进,在使用Sent-LDA时,句子无关词中包含的冗余信息可能会干扰对主题数量和细节的判断。因此,模型引入了依赖解析(DP)过程来解决这个问题。通过使用依赖解析过程,一个句子可以被解析成使用有向边表示单词及其与句法修饰符的关系的直观树或图形结构,具体来说,这个树结构由一个唯一的根节点和其他几个节点组成,其中有向边表示它们之间的关系。根节点中的词通常传达最关键的信息,随着树的增长,其节点的词变得不那么重要。因此,使用依赖解析过程,可以有效地提取每个句子中的关键词,生成预处理后的金融文本数据集。 图1给�了LDA、Sent-LDA和DP-Sent-LDA三个模型的图形表示。给定一个文本语料库,让M、S、N、K和V分别表示文档数、文档中的句子数、文档中的单词数、主题数和词汇表大小.。Dirichlet(⋅)和Multinomial(⋅)分别表示参数为(⋅)的Dirichlet分布和多项式分布。βk表示主题k的V维词分布,θ表示文档的K维主题比例。η和α表示相应Dirichlet分布的超参数。w表示来自每个句子s的单词集。u表示来自每个句子s的关键字集。基于这些符号,Sent-LDA的图形如图(b)所示,它在图(a)所示的原始LDA的层次结构中添加了一个句子层S。图(c)中 DP-Sent-LDA的图形用关键字集u代替了原来的词集w。 图1:LDA、Sent-LDA和DP-Sent-LDA的图形模型表示 数据来源:《IdentifyingtheInfluentialFactorsofCommodityFuturesthroughaNewTextMiningApproach》 2.挖掘资讯识别影响因素 在确立了文本挖掘模型之后,文献通过在和讯网上搜集整理各个商品品种相关的新闻资讯,利用DP-Sent-LDA模型分析数十万条新闻,对新闻内容进行文本挖掘来识别对于期货商品价格的影响因素并生成词云。在每个单词云中,单词的字体大小越大,相应的文本�现在新闻标题中的概率就越大。 图2:商品影响因素词云 数据来源:《IdentifyingtheInfluentialFactorsofCommodityFuturesthroughaNewTextMiningApproach》 采用文献的方法,我们大致得到了接近30种重要影响因素,如图所示,我们将所有因素分为三类,市场因素、宏观因素以及生产因素。每一个大类又可以进一步细分,比如市场因素可以分为现货、期货、国际市场以及相关市场;宏观分为政策、政治和经济三类;生产则分为内部和外部。每一个小类又包含了若干个影响因素,如现货市场小类会有现货价格、供需、库存和战略存储这四个影响因素,对每一个影响因素,我们会再去寻找相应的代理指标,指标也会有一个或者多个,如供需中又会有供给、需求以及其他的一些衍生指标。 图3:商品波动率影响因素 数据来源:《IdentifyingtheInfluentialFactorsofCommodityFuturesthroughaNewTextMiningApproach》 其中,所有因子又分为左右两列,右边一列是共享因子,所有品种都会受到共享因子比如地缘政治、天气等等造成的影响,但影响方式和影响程度可能不完全一样。左边一列是特有因子,主要是品种自身会受到的影响因素,每个商品实际对应的代理指标是不同的。 ■影响因素预测波动率实证研究 对文本挖掘所得的影响因素预测波动率的实证研究可以分为以下几个步骤: 1.寻找代理指标 在通过文本挖掘得到影响商品价格的影响因素后,还需要寻找影响因素所对应的代理指标具象化并获取数据进行分析。举例来说,政治冲突是重要的影响因素之一,但该影响因素本身是抽象化的词汇,因此需要用Wind上的“地缘政治指数”作为其代理指标以便获取数据进行分析。前文提到,不同的商品品种具有不同的影响因素,部分因素只影响个别品种。以能源化工板块的代表性品种原油为例,其在内部生产因素大类中没有相应的影响因素,因为原油的生产不取决于种植、原材料以及工艺。 图4:原油影响因素及代理指标 数据来源:华泰期货研究院 2.数据处理 在获取了所有影响因素的代理指标之后,我们还需要对数据进行进一步的处理。数据的处理如图5所示。对于日频价格类数据,我们计算其20日收益率的滚动波动 率;对于其他非价格类的日频数据如成交量、开工率等,计算其滚动20日的波动率。对于非日频数据(周频,月频,季频),我们则首先取其相对上一期的绝对值变动,随后前向填充为日频数据。选取绝对值变动的原因是,在一般情况下,影响因素的大幅正向变动或者负向变动都会引起波动率的抬升。 经过波动率计算与日频转化后,将所有调整后的数据用z-score方法进行标准化后再代入回归模型,使得模型最终的回归系数具有可比性。在综合考虑之后,我们选取了Lasso模型作为回归模型。Lasso由于使用了1-范数(即回归系数绝对值之和)作为惩罚项,故称为“绝对值收缩”(AbsoluteShrinkage),同时具备变量选择(SelectionOperator),故得名“最小绝对值收缩与筛选算子”(LeastAbsoluteShrinkageandSelectionOperator)。 1)由于波动率的影响因素较多,多个影响因素存在一定的多重共线性,而Lasso避免了在预测变量过多时采用普通最小二乘估计(OLS)估计带来的过拟合和多重共线性的问题; 2)此外,Lasso模型的另一个优点在于可以直接将冗余预测变量的回归系数压缩到 0进而发挥变量选择的作用,获得精简且更有效率的预测变量集,同时也可以减少对重要回归系数的过度压缩。 在回归模型的目标值上,我们使用波动率的变化作为回归模型的预测目标。波动率的变化使用未来20日的波动率减去历史20日的波动率,使