您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[华创证券]:AI+HI系列(2):PatchTST、TSMixer、ModernTCN时序深度网络构建量价因子 - 发现报告
当前位置:首页/其他报告/报告详情/

AI+HI系列(2):PatchTST、TSMixer、ModernTCN时序深度网络构建量价因子

2024-03-12秦玄晋、王小川华创证券土***
AI+HI系列(2):PatchTST、TSMixer、ModernTCN时序深度网络构建量价因子

金融工程 证券研究报告 专题报告2024年03月11日 【专题报告】 AI+HI系列(2):PatchTST、TSMixer、 ModernTCN时序深度网络构建量价因子 华创证券研究所 证券分析师:秦玄晋 电话:021-20572522 邮箱:qinxuanjin@hcyjs.com执业编号:S0360522080005 证券分析师:�小川 电话:021-20572528 邮箱:wangxiaochuan@hcyjs.com执业编号:S0360517100001 相关研究报告 《AI+HI系列:GRU网络在风格自适应中的创新与应用》 2023-12-04 《量化选股系列——机构情绪与个人情绪》 2023-09-05 《ChatGLM助力量化选股》 2023-06-14 《人工智能助力量化投资——ChatGLM介绍》 2023-06-14 《基于canslim与FESC的沪深300指数增强策略》 2023-03-07 《行业轮动系列——FESC行业轮动投资框架 1.0》 2022-09-07 《CANSLIM3.0投资法——成长与价值轮动》 2022-06-17 《CANSLIM2.0投资法——华创金工大师系列成长型之一》 2021-10-16 前言 深度学习强大的表征能力使其在多个领域取得了显著成果,在时序领域同样也有许多模型选择。本文探索了PatchTST、TSMixer、ModernTCN三个近年的时序深度学习模型在因子挖掘上的运用,它们采用了Patch+通道独立的模型设计,骨干网络分别基于自注意力、MLP、CNN机制。 模型特点 本文介绍的深度学习模型以多变量时序类数据为出发点,相比于基于RNN类的时序模型,最显著的区别在于采用了通道独立的设计,即将多变量时间序列先拆为多个单变量时间序列,骨干网络的模块分别学习单变量序列的时序、特征交互以及跨变量的信息交互。这些时序网络在骨干网络的设计上,融合了视觉领域以及Transformer的骨干网络思路和方法,具有一定参考意义。 因子测试对比 鉴于不同领域时序任务的多样性,我们进一步探索了PatchTST、Transformer、TSMixer、ModernTCN模型在量价数据集的泛化能力。在中证全指股票池下,四个模型生成的量价周频因子10日RankIC均达到了10%以上,TSMixer和ModernTCN的整体表现略优于PatchTST和Transformer;4个周度因子的区间IC均值分别为10.6%、10.8%、11.0%、10.7%,ICIR为0.83、0.82、0.91、0.88 不同模型20分组的TOP组超额收益差异较大,四个模型TOP组的年化超额收益分别为21%、14.28%、22.39%、18.18%;模型设计差异最大的两个模型的TOP组选股重叠度约为61%; 在2024年初至2月8日区间,四个模型的TOP组超额收益最大回撤表现不一,分别为4%、5%、7%、21%,ModernTCN模型回撤幅度明显大于其他模型。 模型消融测试 对TSMixer和ModernTCN模型进行模块剔除实验,无Patch+通道混合模型因子的RankIC出现轻微下降,但TOP组超额收益表现出明显差异,TOP组年化收益分别降低了8.07%、5.25%。骨干网络的设计对模型综合表现有重要影响。 风险提示: 策略基于历史数据回测,不保证未来数据的有效性。深度学习模型存在过拟合风险。深度学习模型受随机数影响。本文的模型实现和相关文献不完全相同。 投资主题 报告亮点 深度学习模型在多个领域取得了显著成果,本篇报告介绍了近年关于时序领域的深度学习模型相关研究,并将其用于量价因子挖掘。时序深度学习模型在模块设计上有诸多方案,其中不乏值得借鉴的模块设计,为广大投资者提供新的研究思路,助力量化投资的发展。 投资逻辑 时序类数据在量化投资领域处处可见,因此为时间序列设计的深度学习模型具有相当的应用潜力。合理的深度学习网络设计对后续的选股结果能产生显著影响。因此,本文初步尝试了数个泛化性较强的深度时序网络,探索深度学习模型在量化领域上的运用。 目录 一、动机6 二、模型介绍6 (一)时序嵌入7 1、Patch7 2、通道独立8 (二)PatchTST9 1、Transformer9 2、PatchTST10 (三)TSMixer11 1、门控注意力12 2、TSMixerBackbone12 (四)ModernTCN13 1、分组卷积13 2、深度可分离卷积14 3、ModernTCNBackbone15 (🖂)小结17 三、量价因子挖掘测试18 (一)数据集介绍18 (二)模型流程19 (三)参数设定20 (四)因子测试21 1、IC测试结果21 2、相关性23 3、分组测试结果24 (🖂)消融测试27 1、剔除Patch27 2、剔除通道独立27 3、剔除Patch与通道独立27 4、测试结果28 四、总结30 �、风险提示30 六、参考文献30 图表目录 图表1经典RNN网络7 图表2图像模型中的Patch8 图表3多变量时序Embedding9 图表4通道混合与通道独立9 图表5Transformer模型10 图表6PatchTST模型流程11 图表7TSMixer模型中的门控注意力12 图表8TSMixerBackbone13 图表9分组卷积示意图14 图表10深度可分离卷积示意图15 图表11ModernTCN网络架构16 图表12ConvFFN模块结构17 图表13模型简化流程17 图表14通道混合、通道独立流程对比18 图表15训练验证集划分19 图表16模型对比20 图表17模型流程20 图表18训练参数设定20 图表19不同模型5日IC统计结果21 图表20PatchTST模型5日IC历史表现21 图表21Transformer模型因子5日IC历史表现21 图表22PatchTST模型5日IC历史表现22 图表23Transformer模型因子5日IC历史表现22 图表24不同模型10日IC统计结果22 图表25PatchTST模型10日IC历史表现22 图表26Transformer模型因子10日IC历史表现22 图表27TSMixer模型10日IC历史表现23 图表28ModernTCN模型因子10日IC历史表现23 图表29因子相关性23 图表30PatchTST因子分组超额收益曲线25 图表31Transformer因子分组超额收益曲线25 图表32TSMixer因子分组超额收益曲线25 图表33ModernTCN因子分组超额收益曲线25 图表34不同模型TOP分组超额收益对比25 图表35TOP分组年化收益率统计26 图表36group_20绩效统计26 图表37多头组重叠度统计27 图表38消融测试5日IC统计结果28 图表39消融测试10日IC统计结果28 图表40ModernTCN消融测试TOP组超额28 图表41TSMixer消融测试TOP组超额28 图表42消融测试TOP组绩效统计29 图表43消融测试TOP组重叠度统计29 一、动机 时序类数据广泛存在各个领域中,传统基于统计的方法需要专业的先验知识以及人工特征处理,基于机器学习、深度学习的方法减轻了这种负担,它们以数据驱动的方式学习时间序列中的潜在模式,提供了富有吸引力的方案。 近年,许多基于深度时序模型的工作被提出,依托于神经网络强大的表示学习能力以及不断优化的模型设计,深度学习网络在解决长期依赖性和动态变化等问题上有了更强的能力,在多个领域的时序任务展现出了优秀的性能,包括但不限于金融市场、气象、交通等。 尽管许多时序深度模型都声称取得了重大成就,但相关工作的结论是否适用于其研究外的数据集、应用场景,模型的泛化能力,是值得思考的。 在本文中,我们以深度学习模型骨干网络中的所用的基础架构为分类基础: RNN:循环神经网络是一个经典的处理序列数据的网络架构,它紧凑地“记忆”过去信息并利用更新的数据进行迭代,因此也常被用于时间序列任务。 Transformer:Transformer模型基于注意力机制,可以同时处理输入序列的所有位置,并能捕捉序列中长距离的依赖关系。Transformer模型在NLP领域取得了巨大成功后,其变体模型被广泛尝试应用于图像、时序等任务中。 CNN:CNN最初是为处理图像数据设计的,但它也可以用于时间序列数据,例如通过一维卷积操作,CNN能够实现捕捉序列中的局部特征。 MLP:一些研究指出,通过合理设计的MLP架构的简易模型,也能够达到与复杂模型相媲美的性能水平。 在我们之前的报告中采用了基于RNN的GRU网络进行量价因子挖掘任务,因此在本篇中我们从剩下的三类中——Transformer、CNN、MLP,分别选择近年较为流行的时序模型继续进行探索; 事实上,基于Transformer、CNN、MLP的时序模型数之不尽,最终我们选择PatchTST、ModernTCN、TSMixer作为代表,它们的骨干网络设计思路上相似,采用了近年时序网络流行的做法,有一定借鉴意义;其次,每个模型以对应的基础架构为主体,分别仅用自注意力、卷积、MLP完成信息提取,而不使用不同类别堆叠;最后,模型设计简洁,便于添加额外组件。 二、模型介绍 在我们之前的报告《GRU网络在风格自适应中的创新与应用》中,我们尝试了基于RNN的GRU模型,GRU由Cho等在2014年提出,它在每个时间点上通过门控单元自适应地捕获序列数据中的依赖关系,在股价序列的因子挖掘任务中是一个常见的基线模型。 图表1经典RNN网络 资料来源:华创证券整理 本篇介绍的PatchTST、ModernTCN、TSMixer模型,它们为多变量时间序列设计,采用了近年时序网络常见的Patch+通道独立的设计,并在骨干网络中用多个模块分别实现时序信息交互的学习、通道/特征的信息交互的学习。 本篇介绍三个模型的大体流程可以简化为: 𝑋𝑒𝑚�=𝐸𝑚𝑏𝑒𝑑𝑑𝑖𝑛𝑔(𝑥𝑖𝑛) 𝑋ℎ=𝑇𝑒𝑚𝑝𝑜𝑟𝑎𝑙(𝑋𝑒𝑚𝑏) 𝑋ℎ=𝐶ℎ𝑎𝑛𝑛𝑒𝑙(𝑋ℎ) 𝑋�=𝐻𝑒𝑎𝑑(𝑋ℎ) 上式对应的模型流程为:1、时序嵌入2、提取时序维度信息3、提取特征(或通道)维度信息4、下游具体任务预测头。 其中,第二、第三步在模型骨干网络中体现,PatchTST、TSMixer、ModernTCN的实现思路相似;第一步的时序嵌入大同小异。 在下面的章节,我们首先介绍时序嵌入方法,再对PatchTST、TSMixer、ModernTCN的骨干网络进行单独介绍。 (一)时序嵌入 Embedding(嵌入)是深度学习中一种表示技术,例如自然语言处理中,通常将单个词转为“词向量”的形式。词被映射为固定维度的向量后,模型能够学习词与词之间的更为复杂的模式和关系。时序数据在输入深度学习模型前同样也需要进行嵌入,获取时间序列的向量表征。和自然语言的不同之处在于,现实中的时序数据大多是多变量时间序列,自然语言可以视为单变量时间序列。 1、Patch Patch指将输入数据分为多个局部区域,在视觉领域有较多运用。例如一张图片按一定窗口大小切分成多个子区域,将子区域排列后转为序列数据,每个区域可以看作类似自然语言序列中的一个token,进而能使用序列模型对图片进行建模: 图表2图像模型中的Patch 资料来源:Dosovitskiy,Alexey,etal."Animageisworth16x16words:Transformersforimagerecognitionatscale." 本篇介绍的时序模型均在Embedding时采用了Patch的时序处理方式。 Patch在时间序列类数据的方法类似于图像:在原始时间序列上使用一个固定大小为P的窗口进行滑动截取,窗口每次滑动的步长为S,由此原始时间序列被拆