您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[东证期货]:国债期货量化系列四:基于多种深度学习模型的策略框架探讨 - 发现报告
当前位置:首页/其他报告/报告详情/

国债期货量化系列四:基于多种深度学习模型的策略框架探讨

2023-03-28王冬黎东证期货笑***
国债期货量化系列四:基于多种深度学习模型的策略框架探讨

深度报告-金融工程 国债期货量化系列四: 基于多种深度学习模型的策略框架探讨 报告日期:2023年03月28日 ★主要内容 本文我们探讨目标收益波动率下的深度学习模型应用,探讨多品种量化策略配置框架,基于不同模型进行的仓位预测,得到最优配置。 模型构建方面,我们选择直接预测仓位,解释变量基于相关量价、基差、宏观和利率期限结构特征。采用深度学习模型 (自编码器,长短期记忆网络,门循环单元,卷积神经网络)结合的方式,探讨建模流程。 金报告比较了特征分类PCA降维以及单特征回归挑选显著特征进行SAE降维之后,再将降维后的新特征放入深度学习模 融型进行训练两种降维方法:对于十年期国债期货(T)来说, 工PCA降维总体效果优于SAE;对于五年期国债期货(TF)来 程说,对夏普损失优化模型SAE降维总体效果优于PCA,对均方误差损失优化模型PCA降维总体效果优于SAE;对于国债期货价差(2TF-T)来说,PCA降维总体效果优于SAE。 混合模型策略方面,报告推荐采用多模型混合策略:资金分配70%于T的SAE+LSTM_GRU均方误差损失优化模型(T交易最活跃),资金分配15%于TF的PCA+GRU均方误差损失优化模型,以及资金分配15%于2TF-T的LSTM均方误差损失优化模型。我们将2015-9-9至2022-10-20的混合策略 表现作为其初始集,将未参与策略挑选的2022-10-20至 2023-3-8的混合策略表现作为跟踪集,并将混合品种投资 (1/3T+1/3TF+1/3(2TF-T))作为比较的业绩基准。我们可以看见混合策略在2倍,2.5倍以及3倍杠杆下,初始集上的夏普比率均为1.28,优于业绩基准的0.63;在跟踪集上的夏普比率分别为1.31,1.33,1.34,优于业绩基准的0.32,混合策略整体净值曲线也较为平滑。 ★风险提示 量化模型有效性基于历史数据得出,不排除失效的可能。 王冬黎金融工程首席分析师 从业资格号:F3032817 投资咨询号:Z0014348 Tel:8621-63325888-3975 Email:dongli.wang@orientfutures.com 联系人: 范沁璇金融工程助理分析师 从业资格号:F03111965 Email:qinxuan.fan@orientfutures.com 重要事项:本报告版权归上海东证期货有限公司所有。未获得东证期货书面授权,任何人不得对本报告进行任何形式的发布、复制。本报告的信息均来源于公开资料,我公司对这些信息的准确性和完整性不作任何保证,也不保证所包含的信息和建议不会发生任何变更。我们已力求报告内容的客观、公正,但文中的观点、结论和建议仅供参考,报告中的信息或意见并不构成交易建议,投资者据此做出的任何投资决策与本公司和作者无关。 有关分析师承诺,见本报告最后部分。并请阅读报告最后一页的免责声明。 目录 1.深度学习模型介绍4 1.1.堆栈式自编码器(SAE)模型介绍4 1.2.循环神经网络模型(RNN)5 1.3.卷积神经网络(CNN)8 1.4.随机失活(DROPOUT)9 1.5.神经网络全连接层(DENSE)10 2.策略框架介绍10 2.1.数据说明及策略简析11 2.2.特征提取及特征转换12 2.3.损失函数介绍12 2.4.模型结构介绍13 2.5.模型调参介绍13 3.模型结果16 3.1.损失函数结果对比16 3.2.降维结果比较评估21 3.3.多模型混合策略展示28 4.风险提示30 图表目录 图表1:自编码器(AE)4 图表2:堆栈式自编码器(SAE)5 图表3:循环神经网络结构图5 图表4:简单循环神经网络节点结构图6 图表5:长短期记忆网络节点结构图7 图表6:门控循环单元节点结构图8 图表7:典型卷积神经网络结构示意图8 图表8:模型结构设置13 图表9:十年期国债期货(T)模型参数设置14 图表10:五年期国债期货(TF)模型参数设置15 图表11:国债期货价差(2TF-T)模型参数设置15 图表12:损失函数结果比较16 图表13:十年期国债期货(T)业绩基准表现指标17 图表14:十年期国债期货(T)各模型表现指标18 图表15:五年期国债期货(TF)业绩基准表现指标18 图表16:五年期国债期货(TF)各模型表现指标19 图表17:国债期货价差(2TF-T)业绩基准表现指标20 图表18:国债期货价差(2TF-T)各模型表现指标20 图表19:十年期国债期货(T)降维情况比较21 图表20:十年期国债期货(T)主成分分析降维后各模型表现指标22 图表21:十年期国债期货(T)堆栈自编码器降维后各模型表现指标23 图表22:五年期国债期货(TF)降维情况比较24 图表23:五年期国债期货(TF)主成分分析降维后各模型表现指标24 图表24:五年期国债期货(TF)堆栈自编码器降维后各模型表现指标25 图表25:国债期货价差(2TF-T)降维情况比较26 图表26:国债期货价差(2TF-T)主成分分析降维后各模型表现指标27 图表27:国债期货价差(2TF-T)堆栈自编码器降维后各模型表现指标28 图表28:业绩基准指标29 图表29:混合策略指标29 图表30:混合策略净值曲线29 1.深度学习模型介绍 本报告进行了深度学习模型在时序数据上的实证研究,采用结构包括堆栈式自编码器 (SAE),长短期记忆网络(LSTM),门循环单元(GRU),卷积神经网络(CNN),随机失活(DROPOUT)以及全连接层(DENSE)。 报告参考神经网络相关的论文包括:Adeeplearningframeworkforfinancialtimeseriesusingstackedautoencodersandlongshorttermmemory(采用小波转换,堆栈式自编码器以及长短期记忆网络进行股票的价格预测。具体做法是先用小波转换降噪,然后采用堆栈式自编码器将输入的数据生成高级的特征,最后将这些特征放入长短期记忆网络模型进行预测);Dropout:ASimpleWaytoPreventNeuralNetworksfromOverfitting(我们可以采用随机扔去一些神经元来避免过拟合);Enhancingthemomentumstrategythroughdeepregression(研究一些现有的动量策略,利用堆栈式自编码器增加利润并获得其他理想属性,深度学习可以改进这些动量策略);EnhancingTimeSeriesMomentumStrategiesUsingDeepNeuralNetworks(夏普优化的长短期记忆网络在没有交易成本的情况下将传统方法提高了两倍以上)等。 1.1.堆栈式自编码器(SAE)模型介绍 自编码器(AE)是一种人工神经网络,自编码器模型主要由编码器(Encoder)和解码器(Decoder)组成,其主要目的是将输入x转换成中间变量,然后再将中间变量转换成新变量,然后对比输入x和输出新变量使得他们两个无限接近来进行训练。 自编码器是一种无监督学习,它可以学习到输入数据的隐含特征,同时用学习到的新特征可以重构出原始输入数据。自动编码器可以用于特征降维,类似主成分分析PCA,但是其相比PCA其性能更强,这是由于神经网络模型可以提取更有效的新特征。 根据上面介绍,自编码器看作由两个级联网络组成:�一个网络是一个编码器,负责接收输入x,并将输入通过函数h变换为信号y;�二个网络将编码的信号y作为其输入,通过函数f得到重构的信号r,数学表达式如下: 图表1:自编码器(AE) 资料来源:东证衍生品研究院 堆栈式自编码器通过堆叠自编码器构建深度网络模型,使用逐层贪婪训练法依次训练每层网络,从像素层面无监督学习特征,避免传统神经网络等方法需进行人工特征分析与选取的问题。因此,堆栈式自编码器本质上就是增加自动编码器中间特征的层数。 图表2:堆栈式自编码器(SAE) 资料来源:东证衍生品研究院 以本报告的堆栈结构为例,在两次编码器之后又进行了两次解码,数学表达式如下: 在本报告中,我们定义误差为原始输入x与重构信号r之差,网络训练的损失函数为均方误差(MSE): 1.2.循环神经网络模型(RNN) 在处理时间序列的深度学习问题时,循环神经网络(RNN)是最常使用的模型之一。模型可以在深度学习中处理一系列输入,并在处理下一个输入序列时保留其状态。传统的神经网络处理输入时,不考虑顺序。但金融数据多为时间序列,具有顺序,传统的前馈网络无法理解这一点,而在循环神经网络的设置中,每个输入都依赖于先前的输入。 图表3:循环神经网络结构图 资料来源:东证衍生品研究院 简单循环神经网络的数学表达式为: 图表4:简单循环神经网络节点结构图 资料来源:东证衍生品研究院 在简单循环神经网络中,“长期依赖”问题是普遍存在的。长期依赖产生的原因是当神经网络的节点经过许多阶段的计算后,之前比较长的时间片的特征已经被覆盖。随着数据时间片的增加,循环神经网络丧失了学习较远的信息的能力。 梯度消失和梯度爆炸是困扰循环神经网络模型训练的关键原因之一,产生梯度消失和梯度爆炸是由于循环神经网络的权值矩阵循环相乘导致的,相同函数的多次组合会导致极端的非线性行为。处理梯度爆炸可以采用梯度截断的方法。所谓梯度截断是指将梯度值超过阈值的梯度手动降到阈值,虽然梯度截断会一定程度上改变梯度的方向,但梯度截断的方向依旧是朝向损失函数减小的方向。对比梯度爆炸,梯度消失不能简单的通过类似梯度截断的阈值式方法来解决,因为长期依赖的现象也会产生很小的梯度。比如我们希望tn时刻能够读到t1时刻的特征,在这期间内我们自然不希望隐层节点状态发生很大的变化,所以t2至t8的梯度要足够小,如果刻意提高小梯度的值将会使模型失去捕捉长期依赖的能力。 而长短期记忆网络(LSTM)与门控循环单元(GRU)可以解决上述问题,它们均引入了门(gate)机制用于控制特征的流通和损失。 长短期记忆网络的核心部分是在节点中最上边类似于传送带的部分,这一部分一般叫做单元状态(cellstate)它自始至终存在于长短期记忆网络的整个链式系统中。 我们假设遗忘门函数结果为ft,激活函数结果为it,输出门函数结果为mt,则输出的Ct表达式为: 输出的ht的表达式为: 其中遗忘门函数,激活函数,输入门函数,输出门函数(a,b,c,d为自定义函数)表达式为: 图表5:长短期记忆网络节点结构图 资料来源:东证衍生品研究院 门控循环单元模型作为长短期记忆网络的一种变体,将遗忘门和输入门合成了一个单一的更新门。同样还混合了其他一些改动,最终的模型比标准的长短期记忆网络模型简单,在训练过程中更节省时间。 门控循环单元的核心部分是在节点中最上方计算ht的部分,我们假设更新门函数结果为zt,重置门函数结果为rt,激活函数结果为mt,那么ht的数学表达式为: 其中更新门函数,重置门函数以及激活函数(a,b,c为自定义函数)表达式为: 图表6:门控循环单元节点结构图 资料来源:东证衍生品研究院 1.3.卷积神经网络(CNN) 卷积神经网络主要是用于处理图像的人工智能模型,它可以把大量参数降维成少量参数,再做处理。典型的卷积神经网络由3个部分构成:卷积层,池化层和全连接层。卷积层负责提取图像中的局部特征;池化层主要作用是下采样,用来大幅降低参数量级;全连接层类似传统神经网络的部分,用来输出想要的结果。 图表7:典型卷积神经网络结构示意图 资料来源:东证衍生品研究院 矩阵卷积有两种:全卷积(fullconvolution)和有效值卷积(validconvolution)。全卷积定义式为: 假设X是m×m阶矩阵,K是n×n阶矩阵,Krot是由K旋转180°得到的矩阵,则有效值卷积定义式为: 假设f为激活函数,则卷积层在激活函数后的输出结果A为: 池化分为平均池化(averagepooling)和最大池化(maxpo