您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[民生证券]:量化专题报告:基于可见性图嵌入的沪深300深度学习增强策略 - 发现报告
当前位置:首页/其他报告/报告详情/

量化专题报告:基于可见性图嵌入的沪深300深度学习增强策略

2023-10-13叶尔乐民生证券风***
量化专题报告:基于可见性图嵌入的沪深300深度学习增强策略

量化专题报告 基于可见性图嵌入的沪深300深度学习增强策略 2023年10月13日 可见性图可以刻画量价时序性结构特征。可见性图是一种将时间序列数据转化成一张图结构的方法。抽取可见图的结构特征并训练分类器的方法被广泛用于时间序列数据的分类问题。可见图转化为复杂网络后,复杂网络的结构包含了时间序列中局部或者全局的波动率与趋势信息,多篇研究利用可见性图及其特征进行时序数据的预测并取得了显著效果。简单的可见性图结构特征可以构造弱有效的选股因子,日度IC均值0.03。利用结构向量法提取图结构特征,可以刻画股票的潜在属性。尽管人为定义计算的可见性图结构特征已经被证实过对时序数据有一定的分类效果,我们选择用一种无监督学习的方式来抽取复杂网络的图结构特征——结构向量法。与传统的图嵌入方法相比,struc2vec更加高效,且在多个数据集上分类更加精确,并可以应用于大规模图的嵌入。用结构向量法提取的图结构特征对沪深300的股票进行聚类,在多种风格因子上有显著分类效果,在周期行业上区分效果相对不明显。 分析师叶尔乐执业证书:S0100522110002邮箱:yeerle@mszq.com相关研究1.量化专题报告:冷门猎手:权益基金提前布局能力分析-2023/10/12 2.量化专题报告:驱动创新的资本力量:创 新效率中的超额收益-2023/10/12 利用二阶段循环神经网络与跨资产注意力网络构造预测模块,从而纳入潜在属性及股票间的相互关系。两阶段注意力循环神经网络DA-RNN可以通过按照时间顺序上不断训练结构性信息的模型结构,提取图结构嵌入特征,在生成股票因子表示时纳入股票的潜在信息。跨资产注意力网络CAAN可以对股票间的相互关系进行建模,计算batch内因子表示的相似度,作为注意力机制的来源。最终通过sigmoid函数,以下一个交易日股票价格是否上涨为因变量进行建模,输出股票上涨概率。利用混淆矩阵来衡量模型准确率,验证集内准确率68%,精确率达70%。 3.量化专题报告:从传统策略到深度学习的可转债投资-2023/10/104.资产配置月报:十月配置视点:能源板块当下的配置价值几何?-2023/10/08 5.量化周报:景气度跳升,节后有望反弹-20 23/10/08 日频模型选股和择时效果显著,合成股指信号依然有效。将模型预测的个股日度上涨概率作为日频选股因子struc_learning,因子日度IC均值0.16,ICIR1.2;中性化后因子表现有所下降,但选股效果依然显著。日度调仓多头组合年化超额收益95.6%,信息比率8.0,但策略容量较低。增加持股数量构建沪深300增强组合,组合平均持股数量137只,策略容量显著上升,年化超额收益46.7%,信息比率5.87。用个股信号合成股指日度涨跌概率信号,并构建沪深300仓位择时策略,年化超额收益13.3%,信息比率1.47,预测涨跌准确率64%。风险提示:量化模型基于历史数据,市场未来可能发生变化,策略模型有失效可能。 目录 1可见性图的构造以及图结构嵌入3 1.1可见性图3 1.2复杂网络的节点权重5 1.3从图结构中提取嵌入信息5 2模型结构与开箱分析8 2.1基于图结构嵌入的深度神经网络8 2.2DA-RNN网络9 2.3CAAN网络10 2.4图结构特征对股票的分类效果11 3模型效果实证13 3.1参数选择及准确率衡量13 3.2模型选股表现14 3.3模型择时表现17 4总结与思考22 5风险提示23 6参考文献24 插图目录25 1可见性图的构造以及图结构嵌入 1.1可见性图 可见性图(VisibilityGraph)是一种将时间序列数据转化成图结构的方法。抽取可见图的结构特征并训练分类器的方法被广泛用于时间序列数据的分类问题。可见性图的定义如下:对于一个时间序列P=(𝑝1,…𝑝𝑛),其可见图表示为:给定两个数据点(𝑡𝑖,𝑝𝑖)和(𝑡𝑗,𝑝𝑗),若其中的所有数据点(𝑡𝑘,𝑝𝑘),𝑡�<𝑡�<𝑡�满足: 𝑡�−𝑡� � 𝑝�<𝑝�+ � −𝑡� (𝑝�−𝑝𝑖) ,则两点的连线视为一条“边”(edge),时序中所有符合条件的数据点以及其“边”的集合即为这一时序的可见图。用更直观的角度解释:若将一个时间序列表达为一个柱状图,依次站在柱子的顶端“往前看”,如果可以“看到”任意一条柱子的顶端,则在这两条柱子间连接一条线,形成具有网络结构的边。 图1:可见性图连接规则示意 资料来源:DaoyuanLietal.2018[1] 可见图方法通过结构图直观地展示时间序列映射后的复杂网络,此时的复杂网络继承了时间序列的属性。使用可见图方法转换时间序列为复杂网络的方法最早可以追溯到2008年LucasLacasa等人的论文Fromtimeseriestocomplexnetworks:Thevisibilitygraph[1],我们可以把时间序列数据中的时间信息转换为复杂网络的节点位置信息,时间序列中的可见性关系转换为复杂网络中节点与节点间的连线关系,这种可见性的连接关系同样刻画了时间序列数据中数值的相对大小关系。但不同于时间序列的两个维度t(时间)和y(数值)维度,可见图的最终表示形式则为一个�×�的矩阵Γ,若点�与点�有连线,则矩阵中的元素𝛾𝑖�=1,否则为0。下图展示了某一只股票在2019年底的20天收盘价构造的可见性图,可视化复杂网络,及矩阵化表示(红色为1,白色为0)。 图2:某只股票20天收盘价的可见性图及复杂网络 资料来源:Wind,民生证券研究院 可见性图及其特征被广泛应用于时序数据的预测中。比如,在DaoyuanLi,etal在2018年发表的论文ExtractingStatisticalGraphFeaturesforAccurateandEfficientTimeSeriesClassification[3]中,作者将可见性图中提取出的多个特征输入XGBoost模型,对UCR大学创建的时间序列数据集中的多个时间序列数据进行了分类,并取得了显著的分类效果,证明了可见性图的结构特征可以对样本进行分类。从这一角度出发,我们可以将可见性图结构特征的分类效果应用到股票市场中,将可见图结构特征作为股票的潜在属性,输入到神经网络中,提升模型的预测效果。 在A股中,可见性图中的结构性特征对股票有一定的选择效果,其逻辑在于结构中蕴含的波动性与趋势。最简单且常见的图结构特征为平均最短步长,即每个节点连到其他点最短步长的平均。想象一种U型价格走势,按照可见性图的规则,图中的所有价格点都可以“看见”彼此,则类似的图结构有着最低的平均最短步长(一步就可以从任一点到任一点);反之,若价格走势为倒U型,则图结构有着最高的平均最短步长。根据类似图结构中包含的波动率与趋势信息,我们可以构建简单的选股因子。例如,我们可以基于股票过去20个交易日收盘价可见性图的平均最短步长减去负收盘价可见性图的平均最短步长,构建日频选股因子,在全A上取得0.03的日度IC。 图3:可见性图结构因子日度IC 资料来源:Wind,民生证券研究院 1.2复杂网络的节点权重 除了每个网络的图结构特征外,我们还需要考虑每一个网络节点的权重,因为每个节点蕴含的信息权重是不一样的。在传统的复杂网络分析框架中,有很多方法可以用来衡量节点权重,如度中心性,介数中心性,接近度中心性等。我们采用FlavianoMoroneandHernanA.Makse于2015年发表的论文Influencemaximizationincomplexnetworksthroughoptimalpercolation中提到的CollectiveInfluence[3]算法,根据Morone等人的研究,CI算法计算高效,并且相比起传统权重计算方法,可以更好识别网络结构中的节点贡献。在CI算法中,要计算点�的CI指数,首先从点�出发,跳�步可以到达的所有点的集合(即距离点�的最短步数为�的所有点)构成以点�为中心,半径为𝑙=2的“球面”,表示为𝜕𝐵𝑎𝑙𝑙(𝑖,𝑙)。则每个节点的CI指数计算方式定义如下: 𝐶𝐼�=(𝑑�−1)∑(𝑑�−1) 𝑗∈𝜕𝐵𝑎𝑙𝑙(𝑖,𝑙) 其中�为节点的度数,即节点连的边数。我们以某只股票20天的量价指标为例,计算节点权重如下: 128 4 190 40 128 140 33 40 16 close 30 100 168 vol 216 50 69 50 256 high 639256 84 144 open 136144147120133140126126 136 low 11 amount 216 506950 256 图4:某只股票20天量价指标的相应节点权重示例 5050779080487227302968130248 42 31 24 50 50 28 852052075656 56567685 120120120 14830 1406363 45141812 771401201622281641041645046 881161161521301301321326440 11211616 14994 852052075656 资料来源:Wind,民生证券研究院 2850120120120140 1406363 1.3从图结构中提取嵌入信息 上一节中我们提到,传统的复杂网络用人为定义的结构特征,如平均最短步长,对时序数据进行分类。尽管这种传统的方法已经被证实过对时序数据有一定的分类效果,我们选择用一种更有效的训练方式来抽取复杂网络的图结构特征— —结构向量法(Struc2vec),此方法由2017年LeonardoF.R.Ribeiro等人发表的研究struc2vec:LearningNodeRepresentationsfromStructuralIdentity中提出[4]。结构向量法是一种将复杂网络中的节点表示为嵌入向量,并用其进行分类的无监督学习算法。与传统的图嵌入方法相比,struc2vec更加高效,且在多个数据集上分类更加精确,并可以应用于大规模图的嵌入。需要注意的是,1.2中提到的CI指数与结构向量法是两个独立的算法,CI指数衡量的是复杂网络中每个节点的信息权重,而结构向量法则是从这些节点中提取潜在特征,将节点信息变为嵌入向量,2种算法作用不同,并无关联。在后续模型构建中, 我们计算可见性图后将分别计算CI节点权重与结构向量嵌入,并输入到神经网络中进行预测。 Ribeiro等人认为,一个好的可以反映节点结构特性的方法需要使得嵌入embedding向量间的距离可以反映节点之间的结构相似性,即两个局部结构相似节点的嵌入距离应该相近;并且节点表示不依赖于节点本身的属性,边的属性以及节点标签,即使两个节点离的很远,也能够识别出他们在结构上的相似性。基于上述目的,作者提出了结构向量算法,将每一个节点表示为嵌入向量。核心思想是:先根据节点相似度构建多个图层,在其中进行多次随机游走并构建上下文环境,再将上下文环境套入Word2vec算法中的skip-gram模型,学习每个节点的向量表示。skip-gram模型是一种用于生成词向量的神经网络模型。它的目标是通过学习上下文信息来捕捉单词之间的语义关系。具体而言,skip-gram模型试图预测给定一个中心单词周围出现的其他单词。举个例子来说,假设我们有一个句子:“北京的天空很蓝”。在skip-gram模型中,我们将选择一个中心单词比如“天空”,并尝试预测它周围出现的其他单词。通过这样的训练过程,skip-gram模型可以学习到每个单词在不同上下文中的表示,对应到复杂网络中,即可以学习到每个节点在随机游走构建的上下文环境中的向量表示。 结构向量法的大致计算步骤如下: 1.根据不同距离的相邻节点信息,对K*个k跳邻域分别计算每两个节点的相似度,即计算K*个层级的相似度信息,其中K*为网络的直径,即网络中任意两点距离的最大值