中信期货研究|量化研究报告 深度学习期货择时模型优化及应用 报告要点 订单簿一定程度上,既能反映市场的微观结构,又能为投资者对未来价格变动预测提供信息基础,本篇报告在基于上篇报告CNN+LSTM模型,进一步应用Seq2Seq以及Transformer模型对标的数据进行单步以及多步预测。平均未来20-30交易日拟合准确率维持在80%左右。鉴于订单簿数据的可得性,报告后期选取国内外典型期货品种,并应用其行情数据进行择时预测,价格预测在螺纹钢,brent原油等产上品拟合较好。 投资咨询业务资格: 证监许可【2012】669号 115 113 111 109 107 105 中信期货商品指数走势 中信期货十年期国债期货指数 中信期货沪深300股指期货指数 中信期货商品指数 240 220 200 180 160 140 2020-09-07 2020-09-21 2020-10-13 2020-10-27 2020-11-10 2020-11-24 2020-12-08 2020-12-22 2021-01-06 2021-01-20 2021-02-03 2021-02-24 2021-03-10 2021-03-24 2021-04-08 2021-04-22 2021-05-11 2021-05-25 2021-06-08 2021-06-23 2021-07-07 120 摘要:深度学习近年的迅猛发展不断为金融市场提供优秀模型,相关模型也以其优异的拟合 预测能力为金融,商品标的的交易提供交易信号,本篇报告阶段性的剖析Seq2Seq以及当 下比较火热的Transformer模型构建要点,基于以上模型我们对标的的价格进行单步以及多步预测。基于预测结果我们应用简单的交易逻辑进行回测其中,螺纹钢,Brent原油以及PTA表现相对较好,达到年化收益率30%以上。但后期交易算法需进行额外优化。 本篇报告主要分为四大板块: 1).报告将先对Seq2Seq模型,注意力机制以及Transformer模型进行细致拆解,讲述算法和模型背后原理。 2).继续上篇报告深度学习模型对限价订单簿的择时策略的优化:优化过后,Seq2Seq模型以及基于注意力机制的模型不仅对下期mid-price(weightedaveragebid-askprice)的预测准确率达到80%,同时对滞后多期价格预测均能起到较好的预测结果。 3).相较于限价订单簿数据的可得性,我们将Transformer模型应用到部分期货品种的价格预测中,模型经过近100轮训练基本都可以达到较好的拟合效果。在螺纹钢,Brent原油,等产品中得到较好的拟合值,其中螺纹钢未来20交易日的价格曲线拟合真实价格线的相关性达到90%。 4).基于上述模型所得到的预测结果,我们将预测得到的价格数据进行简单的交易逻辑回测。其中螺纹钢,PTA年化收益率均超过30%。 风险提示:1)模型参数失效,2)模型过拟合。 103 商品量化组 研究员:蒋可欣FRM jiangkexin@citicsf。com 从业资格号F03098078 投资咨询号Z0018262 100 重要提示:本报告难以设置访问权限,若给您造成不便,敬请谅解。我司不会因为关注、收到或阅读本报告内容而视相关人员为客户;市场有风险,投资需谨慎。 目录 摘要:1 一、Seq2Seq模型及Attention机制3 (一)模型组成3 (二)Encoder-Decoder模型3 (三)Attention机制4 (四)Seq2Seq模型下订单簿择时模型表现汇总4 (五)Seq2Seq-Attention模型下表现汇总6 二、Transformer模型拆解及构建要点7 (一)Transformer模型组件解读8 (二)订单簿Transformer模型下表现汇总11 三、Transformer模型行情预测表现12 (一)模型价格结果拟合解读14 (二)模型后续应用14 四、部分期货品种回测结果展示14 五、总结展望16 (一)模型优化总结16 (二)后期研究方向及适用性分析16 免责声明17 图表目录 图表1:Seq2Seq模型逻辑框架3 图表2:Attention机制在Seq2Seq模型中嵌入方式4 图表3:SeqSeq模型表现汇总5 图表4:SeqSeq_Attention模型表现汇总6 图表5Transformer模型架构图7 图表6:PositionalEmbedding可视化例子10 图表7:Transformer模型表现汇总11 图表8:Transformer行情预测结果汇总13 图表9:部分产品回测逻辑图14 图表10:部分产品回测结果汇总15 一、Seq2Seq模型及Attention机制 (一)模型组成 承接上篇报告,Sequence2Sequence模型是一类特殊的循环神经网络架构,现实生活中该模型通常被用来(但不限于此)解决复杂的语言问题,如机器翻译、问题回答、创建聊天机器人、文本总结等。以经典的机器翻译过程为代表的场景中,输入是一系列的词,而输出是翻译后的一系列词。而在订单簿择时模型的相关预测中,输入为(Batchsize*Timeinterval*Dimension)维度的高维向量,经神经网络编译后并解码后按顺序预测未来时间价格货价格变动,该模型的顶层架构为Encoder-Decoder模型,该模型由两个LSTM网络叠加而成,第一个LSTM网络为Encoder(编码器),输入数据经过编码器后输入为负责将输入的序列信息转化为预先设置好维度的一组编码,第二个LSTM网络为Decoder(解码器),负责将已经编译好的这组编码转化为对未来序列信息的预测。 Seq2Seq模型相较于上篇报告所提到的所有模型有明显优势在于,该模型不仅可以预测未来时刻价格点的预测结果(涨跌或价格),同时可以在预测时生成其他模型所无法比拟的价格序列,即多点价格预测。(该原理来自于解码器在生成未 来价格序列时也会用到前一时刻点所预测的价格数据.即𝑃�=𝑓(𝑃�,ℎ)). �𝑡−1𝑡−1 图表1:Seq2Seq模型逻辑框架 资料来源:李沐深度学习 (二)Encoder-Decoder模型 Encoder-decoder模型也可以称为seq2seq,它是为了应对RNN中无法满足不等长序列的输入输出而产生的一个RNN变种。Encoder-decoder是深度学习中非常常见的一个模型框架,比如无监督算法的auto-encoder就是用编码的结构设计并训练的,再比如神经网络机器翻译NMT模型,往往就是LSTM-LSTM的编码 -解码框架。 准确的说,Encoder-decoder并不是一个具体的模型,而是一类框架。Encoder 和Decoder部分可以是任意的文字,语音,图像,视频数据,模型可以采用CNN,RNN,BiRNN,LSTM,GRU等等。其中,encoder对数据进行编码,decoder对encoder生成的编码进行解码。(资料来源于:知乎) (三)Attention机制 注意力,顾名思义是关注点所汇聚的部分。注意力机制(attentionmechanism)是人工神经网络中一种模仿认知注意力的技术。这种机制可以增强神经网络输入数据中某些部分的权重,同时减弱其他部分的权重,以此将网络的关注点聚焦于数据中最重要的一小部分。深度学习中的注意力机制则是通过Q(Query:查询),K(key:键),V(Value:值)三个矩阵来实现,举一个很简单的例子:类比推荐系统来说,在零食推荐时,Q代表某个人对口味的喜好信息(比如籍贯、年龄、性别等),K代表零食的类别(比如口味,质感等),V代表待推荐的零食品牌.通过求解K和Q在某个线性空间的相似度得出V中各个类别的数值(关注度)的大小,在报告所列举的订单簿的例子中,query,key和value的每个属性虽然在不同的空间,其实他们是有一定的潜在关系的,也就是说通过某种变换,可以使得三者的属性在一个相近的空间中。(具体模型构建细节将在后面章节详细展开) Attention机制在Seq2Seq模型中同样可以发挥作用,具体过程如下图所示。当编码器(Encoder下同),获得输入数据时,同时产生hidden-state以及context向量,在hidden-state向量进入解码器(Decoder)之前,先对各个时期产生的隐状态进行注意力机制的计算,具体入下图右侧,当解码器同时获得之前所有时刻包含的信息之外,还获得了额外的信息让模型自行学习应该关注过去多长时间的信息。 图表2:Attention机制在Seq2Seq模型中嵌入方式 资料来源:李沐深度学习 (四)Seq2Seq模型下订单簿择时模型表现汇总 总体来说,在Seq2Seq模型下,训练集以及验证集损失的收敛速度都有了一 定加快,相较于消耗大量计算资源且不稳定的MLP和CNN模型来说,Seq2Seq模型在50-150epochs下均有较明显收敛。同时对价格涨跌预测的准确率也有大幅提升。 经过对比可以发现,模型在训练到50epochs左右呈现最佳收敛结果,且模型在价格涨跌的准确率上基本稳定在80%左右的准确率,因此可以在短期内保证较高的胜率,(高频客户需额外注意频繁调仓导致的成本损失)。 图表3:SeqSeq模型表现汇总 滞后一期滞后二期滞后三期 滞后四期滞后五期ConfusionMatrix准确率汇总 滞后阶数 /涨跌 总体上涨振荡下跌 滞后一期 0.79595 0.7126 0.8340 0.6064 滞后二期 0.70360 0.6394 0.7689 0.4991 滞后三期 0.71675 0.7065 0.7807 0.5562 滞后四期 0.73064 0.7592 0.7969 0.6021 滞后五期 0.73788 0.7739 0.8387 0.6323 资料来源:中信期货研究所 (五)Seq2Seq-Attention模型下表现汇总 在Seq2Seq模型中加入注意力机制后,模型在准确率上有小幅提升,相反在收敛速度上却存在小幅下降的情况,模型训练集-验证集收敛情况上看:模型在120epochs左右呈现最佳收敛状态且相应的loss相较于单一的Seq2Seq模型并未有明显提升.模型准确率有小幅下降。 图表4:SeqSeq_Attention模型表现汇总 滞后一期滞后二期滞后三期 滞后四期滞后五期滞后阶数 /涨跌 总体上涨振荡下跌 滞后一期 0.8031 0.7420 0.8240 0.6830 滞后二期 0.7196 0.6402 0.7486 0.6184 滞后三期 0.7224 0.7809 0.7412 0.6824 滞后四期 0.7136 0.7102 0.7127 0.7205 滞后五期 0.6858 0.7296 0.6302 0.7421 资料来源:中信期货研究所 二、Transformer模型拆解及构建要点 2017年《Attentionisallyouneed》介绍了一个具有广泛和不断增长的应用的分水岭神经网络架构,但对之前的序列转导研究进行考察是非常有启发的。这样做既可以获得背后的动机,也可以获得使转化器发展的机器和技术,z这就是著名的Transformer模型。 这篇论文的动机是机器翻译的问题,这个问题可以表达如下:我们从一个源序列�=[𝑓0,𝑓1…𝑓�…𝑓𝑛]开始,其中每个𝑓�代表从源词汇中抽取的一个单独的词,例如英语。我们试图预测�翻译成另一种语言的情况,也就是由目标词汇 𝑒�组成的目标序列组成的目标序列,如法语词汇。从概率公式的角度可以理解为最大化目标函数: 以这种方式思考这个问题有利于用递归神经网络来解决这个问题,这导致了最近机器翻译的大部分进展,直到引入基于变形器的模型。 同理,基于金融数据的时空特性以及我们的诉求(基于历史信息对未来价格的预测),基于以上原理原理构建的以循环神经网络为架构的t