万图师AI看图选指数 -机器学习系列 证券研究报告/量化投资策略报告2023年8月5日 分析师:李新春 执业证书编号:S0740520080002电话:18019761462 Email:lixc@r.qlzq.com.cn 相关报告 1《AI能否学会看图选股——机器 学习系列》 投资要点 最为常见的技术分析手段就是“看图”。由于人性相近,在相同的外部条件下,人们通常有相近的反应。这一切都会在图中表现出来。技术分析和相关的量价因子,在金融学界和投资界都有广泛的应用。 笔者过往报告《AI能否学会看图选股——机器学习系列》,使用股票的K线图作为特征,股票收益作为分类标签,使用卷积神经网络(CNN)训练分类模型。在低价股这个样本中,我们使用2011年至2018年的数据训练模型,在2019年至2023年的数据进行推理。将预测结果视作因子值,预测未来一个月收益的IC均值约6.0%,IR约1.06。对预测结果用排序法检验,多空组合的年化收益率约26%,夏普比率约3.8。多因子回归检验,Top多头组合和多空组合都有显著的alpha。 这里我们把类似的方法论应用到对指数的研究:我们使用指数的K线图作为特征,指数收益作为分类标签,使用卷积神经网络(CNN)训练万图师AI模型。为了提高模型的效力,我们采用了逐年滚动训练的方法,使用过去十年的数据训练,在随后一年进行推理。 基于万图师AI在样本外数据上推理所得的结果,我们构造兼顾选股(指数)和择时的周频换仓策略,即每期选择得分较高且满足阈值的指数作为多头组合。我们在2019年至2023年6月进行推理和回测。无摩擦交易情况下,该策略在行业主题ETF指数上年化收益约31.3%,夏普比率约1.63。有摩擦交易的情况下,该策略在行业主题ETF指数上年化收益约26.9%,夏普比率约1.48。 风险提示:本报结论基于公开的历史数据进行统计、测算,文中部分数据有一定滞后性,同时存在第三方数据提供不准确风险;对基金产品和基金管理人的研究分析结论并不预示其未来表现,也不能保证未来的可持续性,亦不构成投资收益的保证或投资建议;产品的表现受宏观环境、行业基本面超预期变动、市场波动、风格转换等多重因素影响,存在一定波动风险。 内容目录 一、引言.-3- 二、方法论概述...................................................................................................-4- 2.1数据采集与转化.....................................................................................-4- 2.2训练流程................................................................................................-5- 三、万图师AI选申万行业指数表现....................................................................-5- 3.1阈值0.9时策略表现..............................................................................-5- 3.2阈值0.85时策略表现............................................................................-6- 四、万图师AI选行业ETF表现..........................................................................-8- 4.1阈值0.9时策略表现..............................................................................-8- 4.2阈值0.85时策略表现............................................................................-9- 4.3阈值0.85时策略有摩擦交易表现........................................................-11- 风险提示............................................................................................................-12- 一、引言 投机大师利弗莫尔通过对数据加以分类的方式来进行趋势分析,是现代技术分析思想的源头。技术分析通过研究股票过去及现在价格、成交量的变化以及完成这些变化所经历的时间等市场行为的表现形式,透过图表或技术指标的记录来推测未来价格的变动趋势。 技术分析和基本面分析是密切关联,不可分割的。威廉〃欧奈尔的CANSLIM绩优股投机法,号称结合了基本面分析和技术分析。而对纯粹的基本面投资者而言,技术分析也有参考和辅助的价值。 尽管市场和交易的范式在演化,技术分析多年来一直存在,也许是因为视觉分析模式更有利于人类的认知,而模式识别(在过去)是计算机相对于人类没有绝对优势的领域(Loetal.(2000))。 然而深度学习的发展,让计算机逐渐打破了看图的壁垒。Jiang等(2021)提出了使用机器学习基于股票价格图表预测未来收益。他们识别出的特征模式和传统的技术指标有很大区别,并且在不同国家和地区都有较好表现: 图1:Jiang等(2021)模型在不同国家和地区的测试结果:多空组合夏普比率 来源:Jiangetal2021,中泰证券研究所 注:直接迁移的模型基于美股数据训练,使用其他国家和地区数据进行推理。重训练(Re-train)则使用当地数据重新训练模型。其中***,**,*分别代表1%, 5%和10%的显著水平。 二、方法论概述 2.1数据采集与转化 对指数(或股票),我们使用日频的开盘、收盘、最高、最低和日度成交量数据,并使用历史收盘价计算移动平均线。直观上来说,我们采集了如下图的数据: 图2:原始K线图示意图 来源:同花顺,中泰证券研究所,数据截至2023/08/04 然而彩色K线图在计算机中的存储需要三个通道,运算速度也较低,所以我们将其转化为黑白竹线图形式: 图3:转化后竹线图示意图 来源:同花顺,中泰证券研究所,数据截至2023/08/04 2.2训练流程 对指数我们将K线图转换为灰度图形式,使用最近20个交易日的四个价格、均线和成交量信息绘制竹线图作为X;我们使用未来5个交易日或者20个交易日的累计收益,作为分类标签Y。当绝对收益为正时,标签值为1;否则标签值为0。 我们基于CNN网络训练万图师AI模型,它的核心构建模块由三个操作组成:卷积、激活和池化。神经网络最后链接到一个全连接层并使用softmax作为激活函数。训练后的模型对输入特征输出一个能够获得正(绝对)收益的概率。 三、万图师AI选申万行业指数表现 3.1阈值0.9时策略表现 我们使用2011~2018年的指数数据训练万图师,在2019年至2023年Q2进行推理回测。底层资产为申万一级行业指数。我们基于推理结果构造策略,设定周频换仓且无摩擦交易,每期选择得分高于阈值0.9的前三名行业,不足则留空。空仓时,我们默认持有货币基金指数。策略累计收益对比沪深300如下: 图4:阈值0.9时申万行业轮动策略累计收益 来源:同花顺,中泰证券研究所,数据截至2023/06/30 两者各年度收益对比如下: 图5:阈值0.9时申万行业轮动策略各年度收益 来源:同花顺,中泰证券研究所,数据截至2023/06/30 主要收益指标、风险指标和前5次最大回撤如下: 图6:阈值0.9时申万行业轮动策略各类指标 本策略沪深300本策略前五次最大回撤 累计收益率 100.09% 27.63% 开始 结束 回撤 持续天数 年化收益率 16.69% 5.58% 2019/3/13 2019/9/12 -9.93% 183 夏普比率 1.3 0.38 2022/1/24 2022/4/6 -8.89% 72 Calmar 1.68 0.14 2021/1/20 2021/8/10 -7.89% 202 月度胜率 81.48% 2022/6/29 2022/10/14 -6.37% 107 2022/4/20 2022/6/27 -6.20% 68 来源:同花顺,中泰证券研究所,数据截至2023/06/30 3.2阈值0.85时策略表现 我们使用2011~2018年的指数数据训练万图师,在2019年至2023年Q2进行推理回测。我们基于推理结果构造策略,设定周频换仓且无摩擦交易,每期选择得分高于阈值0.85的前三名行业,不足则留空。空仓时,我 们默认持有货币基金指数。策略累计收益对比沪深300如下: 图7:阈值0.85时申万行业轮动策略累计收益 来源:同花顺,中泰证券研究所,数据截至2023/06/30 两者各年度收益对比如下: 图8:阈值0.85时申万行业轮动策略各年度收益 来源:同花顺,中泰证券研究所,数据截至2023/06/30 主要收益指标、风险指标和前5次最大回撤如下: 图9:阈值0.85时申万行业轮动策略各类指标 本策略沪深300本策略前五次最大回撤 累计收益率 101.73% 27.63% 开始 结束 回撤 持续天数 年化收益率 16.90% 5.58% 2021/6/8 2023/3/1 -33.88% 631 夏普比率 0.95 0.38 2020/7/16 2021/5/14 -12.56% 302 Calmar 0.5 0.14 2019/4/9 2019/9/4 -8.47% 148 月度胜率 66.67% 2023/3/23 2023/6/30 -6.39% 99 2020/3/6 2020/5/26 -6.20% 81 来源:同花顺,中泰证券研究所,数据截至2023/06/30 四、万图师AI选行业ETF表现 4.1阈值0.9时策略表现 我们使用2011~2018年的指数数据训练万图师,在2019年至2023年Q2进行推理回测。为了提高模型效率,我们逐年滚动训练模型。考虑到部分ETF发行时间较晚,所以我们实际使用行业主题ETF的跟踪指数做回测。在每年初选择过去日均交易高于千万手的活跃指数。我们基于推理结果构造策略,设定周频换仓且无摩擦交易,每期选择得分高于阈值0.9的前三名指数,不足则留空。空仓时,我们默认持有货币基金指数。策略累计收益对比沪深300如下: 图10:阈值0.9时行业ETF轮动策略累计收益 来源:同花顺,中泰证券研究所,数据截至2023/06/30 两者各年度收益对比如下: 图11:阈值0.9时行业ETF轮动策略各年度收益 来源:同花顺,中泰证券研究所,数据截至2023/06/30 主要收益指标、风险指标和前5次最大回撤如下: 图12:阈值0.9时行业ETF轮动策略各类指标 本策略沪深300本策略前五次最大回撤 累计收益率 176.53% 27.63% 开始 结束 回撤 持续天数 年化收益率 25.40% 5.58% 2023/2/16 2023/6/30 -12.04% 134 夏普比率 1.58 0.38 2021/1/25 2021/8/9 -10.62% 196 Calmar 2.11 0.14 2019/3/8 2019/8/19 -10.17% 164 月度胜率 79.63% 2021/9/9 2022/3/30 -8.20% 202 2020/7/14 202