您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[东方证券]:基于残差网络的端到端因子挖掘模型 - 发现报告
当前位置:首页/其他报告/报告详情/

基于残差网络的端到端因子挖掘模型

2023-08-24杨怡玲东方证券艳***
基于残差网络的端到端因子挖掘模型

有关分析师的申明,见本报告最后部分。其他重要信息披露见分析师申明之后部分,或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。 金融工程 | 专题报告 研究结论 ⚫ 本文我们提出了一个基于残差网络的两阶段因子挖掘模型,通过构造数据图片并使用残差网络进行时间截面特征提取,之后再输入循环神经网络进行时序特征提取,这样能有效的捕捉长周期信息且不会付出较大的计算代价。 ⚫ 本文将原始日内分钟线和周度内日k线构造的数据图片集分别称之为msnew和week数据集,并将这两个数据集分别直接输入模型采用将原始数据直接作为输入来获取该数据集打分。这种做法完全实现端到端的模式可以有效的缓解信息丢失问题,并且也解决了人工筛选特征带来的过拟合问题。 ⚫ 数据集msnew与数据集ms生成的因子之间信息重叠度较高但仍然存在差异。主要原因在于数据集msnew使用的是半小时k线数据作为输入,而数据集ms则是根据五分钟k线人工构建的日频特征,二者原始数据信息天然存在差异; ⚫ 数据集msnew生成打分的选股能力整体略高于数据集ms。通过将数据集msnew生成的弱因子替代数据集ms参与非线性加权得到的打分在四个股票池上表现并没有发生较大改变,这说明数据集msnew对数据集ms有较好的替代性。 ⚫ 数据集week上生成因子选股能力显著好于数据集day,说明更长时序作为输入对未来收益率的预测能力更强。并且通过引入week数据集,非线性加权打分在各股票池上的各项选股指标均有显著的提升,说明数据集week能够对整体模型起到一个较大的增量作用。 ⚫ 我们提出的两种不同数据集组合Model3和Model4非线性加权打分在中证全指、沪深300、中证500、中证1000四个指数上十日RankIC均值分别为14.97%、9.57%、11.29%、14.63%和14.99%、9.36%、11.98%、14.57%,top组年化超额分别为41.48%、26.02%、21.28%、35.02%和41.76%、25.58%、21.67%、34.56%,打分市值偏向性较低。 ⚫ 以上两个打分也可直接应用于指数增强策略,各宽基指数上均能获得显著的超额收益,在成分股不低于80%限制、周单边换手率约束为20%约束下,2018年以来,Model3打分在沪深300、中证500和中证1000增强策略上年化超额收益率分别为14.49%、19.76%和29.41%,Model4打分在沪深300、中证500和中证1000增强策略上年化超额收益率分别为14.76%、20.15%和28.72%。 风险提示 ⚫ 量化模型失效 ⚫ 极端市场造成冲击,导致亏损 报告发布日期 2023年08月24日 证券分析师 杨怡玲 yangyiling@orientsec.com.cn 执业证书编号:S0860523040002 联系人 陶文启 taowenqi@orientsec.com.cn 基于循环神经网络的多频率因子挖掘:——因子选股系列之九十一 2023-06-06 多模型学习量价时序特征:——因子选股系列之八十三 2022-06-12 周频量价指增模型:——因子选股系列之八十一 2022-03-28 基于残差网络的端到端因子挖掘模型 ——因子选股系列之九十六 金融工程 | 专题报告 —— 基于残差网络的端到端因子挖掘模型 有关分析师的申明,见本报告最后部分。其他重要信息披露见分析师申明之后部分,或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。 2 目 录 引言 ............................................................................................................... 4 一、因子提取单元网络结构 ............................................................................ 5 1.1 残差网络(Residual Networks & ResNet)概述 .......................................................... 5 1.2 数据图片以及数据集的构造 .......................................................................................... 6 1.3 本文使用特征提取的网络架构 ...................................................................................... 6 二、因子分析 ................................................................................................. 8 2.1 各数据集选股效果分析 ................................................................................................. 8 2.2 各数据集打分与常见量价因子相关性分析 .................................................................... 9 三、各数据集因子非线性加权结果分析 ........................................................ 10 四、合成因子指数增强组合表现 ................................................................... 12 4.1增强组合构建说明 ...................................................................................................... 12 4.2沪深300指数增强 ...................................................................................................... 13 4.3中证500指数增强 ...................................................................................................... 14 4.4中证1000指数增强 .................................................................................................... 15 五、结论 ...................................................................................................... 16 附录 ............................................................................................................. 17 风险提示 ...................................................................................................... 17 核心参考文献 ............................................................................................... 17 金融工程 | 专题报告 —— 基于残差网络的端到端因子挖掘模型 有关分析师的申明,见本报告最后部分。其他重要信息披露见分析师申明之后部分,或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。 3 图表目录 图 1:AI量价模型框架 ................................................................................................................. 4 图 2:ResNet层结构说明 ............................................................................................................ 5 图 3:数据图片 ............................................................................................................................. 6 图 4:ResNet特征提取示意图 ..................................................................................................... 7 图5:端到端因子挖掘网络结构 .................................................................................................... 7 图6:NN Layer结构 .................................................................................................................... 7 图 7:各数据集多元RNN因子年化超额收益(回测期20170101~20230630) ........................... 8 图 8:各数据集打分与常见量价因子相关性分析 ........................................................................... 9 图 9:非线性加权打分中证全指分组年化超额收益(回测期20180101~20230630) ................ 10 图 10:非线性加权打分分组年化超额收益(回测期20180101~20230630) ............................. 12 图11:沪深300指增净值走势(Model3) ................................................................................ 13 图12:沪深300指增净值走势(Model4) ................................................................................ 13 图13:中证500指增净值走势(Model3) ................................................................................ 14 图14:中证500指增净值走势(Model4) ...