AI能否学会看图选股——机器学习系列 证券研究报告/量化投资策略报告2023年5月10日 分析师:李新春 执业证书编号:S0740520080002电话:18019761462 Email:lixc@r.qlzq.com.cn 相关报告 《挖掘资产定价中的隐式因子—— 机器学习系列》 投资要点 最为常见的技术分析手段就是“看图”。由于人性相近,在相同的外部条件下,人们通常有相近的反应。这一切都会在图中表现出来。技术分析和相关的量价因子,在金融学界和投资界都有广泛的应用。 笔者过往的研究《挖掘资产定价中的隐式因子》,已着手使用机器学习的办法研究量价数据,特别是价格数据背后隐含的市场预期。对价格这样的纯一维数据,我们使用主成分分析(PCA)挖掘隐式因子的特征方向,使用稳健回归(Huber)估计隐式因子的风险溢价。 如果我们同时考虑量价二维数据,例如类似K线图的形式: 此时传统的量化方法无能为力,但我们可以训练神经网络从这些图片中找出能够预测未来收益的模式。 具体而言,我们将含有两条均线的K线图作为特征,股票收益作为标签,使用卷积神经网络(CNN)训练分类模型。在低价股这个样本中,我们使用2011年至2018年的数据训练模型,在2019年至2023年的数据进行推理。将预测结果视作因子值,预测未来一个月收益的IC均值约6.0%,IR约1.06。对预测结果用排序法检验,多空组合的年化收益率约26%,夏普比率约3.8。多因子回归检验,Top多头组合和多空组合都有显著的alpha。 我们使用约20个交易日的收益数据训练模型后构造了月度换仓策略,该策略在2019年至2023年Q1的样本外上年化收益率约28%,夏普比率约1.49;同期万得全A年化收益约11%,夏普比率约0.66。 风险提示事件:本报结论基于公开的历史数据进行统计、测算,文中部分数据有一定滞后性,同时存在第三方数据提供不准确风险;对基金产品和基金管理人的研究分析结论并不预示其未来表现,也不能保证未来的可持续性,亦不构成投资收益的保证或投资建议;产品的表现受宏观环境、行业基本面超预期变动、市场波动、风格转换等多重因素影响,存在一定波动风险。 内容目录 一、引言.-3- 二、模型在低价股上的表现................................................................................-4- 2.1数据和模型简介.....................................................................................-4- 2.2对预测结果的因子化分析......................................................................-5- 2.3对预测结果的排序法检验......................................................................-7- 2.4对预测结果的回归分析..........................................................................-8- 三、中低频策略表现...........................................................................................-9- 风险提示............................................................................................................-12- 一、引言 投机大师利弗莫尔通过对数据加以分类的方式来进行趋势分析,是现代技术分析思想的源头。技术分析通过研究股票过去及现在价格、成交量的变化以及完成这些变化所经历的时间等市场行为的表现形式,透过图表或技术指标的记录来推测未来价格的变动趋势。 技术分析和基本面分析是密切关联,不可分割的。威廉〃欧奈尔的CANSLIM绩优股投机法,号称结合了基本面分析和技术分析。而对纯粹的基本面投资者而言,技术分析也有参考和辅助的价值。 尽管市场和交易的范式在演化,技术分析多年来一直存在,也许是因为视觉分析模式更有利于人类的认知,而模式识别(在过去)是计算机相对于人类没有绝对优势的领域(Loetal.(2000))。 然而深度学习的发展,让计算机逐渐打破了看图的壁垒。Jiang等(2021)提出了使用机器学习基于股票价格图表预测未来收益。他们识别出的特征模式和传统的技术指标有很大区别,并且在不同国家和地区都有较好表现: 图1:Jiang等(2021)模型在不同国家和地区的测试结果:多空组合夏普比率 来源:Jiangetal2021,中泰证券研究所 注:直接迁移的模型基于美股数据训练,使用其他国家和地区数据进行推理。重训练(Re-train)则使用当地数据重新训练模型。其中***,**,*分别代表1%,5%和10%的显著水平。 参考Jiang等(2021)的工作,我们在A股上尝试复现和改进CNN对K线图的分类和预测模型。与他们的结论(训练结果有跨地区鲁棒性)不同,我们发现在低价股样本中,在附加多条K线图的情况下,模型有更好的样本外表现。 二、模型在低价股上的表现 2.1数据和模型简介 对低价股票群体,我们使用日频的开盘、收盘、最高、最低和日度成交量数据,并使用历史收盘价计算移动平均线。直观上来说,我们采集了如下图的数据: 图2:未经处理的K线图示意图 来源:同花顺,中泰证券研究所,数据截至2023/03/31 结合CNN对图像的处理方式,我们将K线图转换为灰度图形式,使用最近 20个交易日的四个价格、均线和成交量信息,并统一进行放缩: 图3:实际输入特征示意图 来源:wind,中泰证券研究所,数据截至2023/03/31 我们使用未来5个交易日或者20个交易日的累计收益,作为分类标签Y。当绝对收益为正时,标签值为1;否则标签值为0。 我们选择CNN作为分类模型,它的核心构建模块由三个操作组成:卷积、激活和池化。神经网络最后链接到一个全连接层并使用softmax作为激活函数。训练后的模型对输入特征输出一个能够获得正(绝对)收益的概率。 2.2对预测结果的因子化分析 我们使用2011年至2018年的A股量价数据作为训练集,其中约30%的数据作为验证集;2019年至2023年Q1的A股量价数据作为样本外数据。 训练后的模型在样本外数据上只进行推理,然后得到日频的预测分数。我们将预测分数视作截面上的因子值,与未来5个、10个和20个交易日的累计收益进行因子分析。分析过程中我们使用了标准的Python第三方包:Alphalens。 三个期限预测未来收益均值的分组图如下。由图可知在预测未来5个交易日 的收益时,因子值即预测分数有较为客观的分组效果;对预测未来10或20个交易日,也有较好的分组效果。 图4:预测未来收益均值的分组图 来源:wind,中泰证券研究所,数据截至2023/03/31 预测未来收益的风琴图如下所示。各个期限在第5组的分布相比其它组,离群值都出现了增加现象;所幸的是向上(获得正收益)增加的个体多于向下的个体。这说明,如果以此因子构建多头组合,我们要么设臵较高的阈值,要么持有足够多的标的。 图4:预测未来收益的风琴图 来源:wind,中泰证券研究所,数据截至2023/03/31 因子的信息比率如下表所示,t值在不同期限下的结果都非常显著: 图5:因子的信息比率 Kurtosis 5D 5.5% 0.061 0.899 28.596 0 0.092 0.448 10D 5.6% 0.056 1.007 32.019 0 0.114 0.26 20D 6.0% 0.056 1.066 33.925 0 0.282 0.694 ICMeanICStd. IR t-stat(IC)p-value(IC) ICSkew IC 来源:wind,中泰证券研究所,数据截至2023/03/31 最后我们给出不同期限的月度平均IC表格: 图5:预测5D和10D的月度平均IC 来源:wind,中泰证券研究所,数据截至2023/03/31 以及: 图6:预测20D的月度平均IC 来源:wind,中泰证券研究所,数据截至2023/03/31 2.3对预测结果的排序法检验 类似上一节,我们将样本内股票(剔除涨跌停和ST)在截面上按照预测值从低到高排名,然后分为5组;做空得分最低的第1组股票,做多得分最高的 第5组股票得到多空组合。由此得到的各组合累计净值表现如下: 图7:分组及多空组合的累计净值表现 来源:wind,中泰证券研究所,数据截至2023/03/31 对多空组合,我们进一步给出收益、风险指标和前5次最大回撤如下: 图8:多空组合的收益和风险指标 累计收益率 169.81% 开始 结束 回撤 持续天数 年化收益率 26.35% 2020/9/1 2020/9/28 -4.40% 27 夏普比率 3.76 2020/2/17 2020/3/4 -4.27% 16 Calmar 5.99 2020/12/16 2021/1/19 -3.48% 34 Sortino 6.49 2020/10/9 2020/12/2 -3.07% 54 2021/7/15 2021/9/8 -2.90% 55 来源:wind,中泰证券研究所,数据截至2023/03/31 以及多空组合的月度收益图,正收益月份占比约86.3%: 图9:多空组合的月度收益 来源:wind,中泰证券研究所,数据截至2023/03/31 2.4对预测结果的回归分析 我们对第5组合(Top)和多空组合进行回归分析,回归变量为FF5以及FF3+动量、反转、换手率和(逆)流动性因子,检验回归后残差的显著性。其中除市场因子外,其他多空因子都按照Fama-French(1993)构造。 回归区间为2019年至2023年Q1,所得结果如下。多头组合(第5组)仅在小市值因子上有较高的暴露(约0.7),但是各种回归情况下都有较强的alpha,且通过显著性检验(t值都大于2)。多空组合仅在逆流动性因子上有相对高暴露 年化 alpha t值 MKT SMB HML RMW CMA 第5组 11.6% 5.54 1.02 0.77 0.23 0.05 -0.15 多空组合 22.1% 7.10 0.04 0.12 0.13 0.12 -0.26 年化 alpha t值 MKT SMB HML MOM (约0.4),但是各种回归情况下都有较强的alpha,且通过显著性检验(t值都大于2)。 图10:多头及多空组合的FF5因子回归分析 第5组 12.8% 6.00 1.01 0.70 0.16 -0.01 多空组合 24.7% 7.71 0.03 -0.03 -0.03 -0.06 年化 t值 MKT SMB HML REV 第5组 alpha 11.8% 6.34 1.01 0.71 0.13 0.15 多空组合 22.9% 8.07 0.03 -0.01 -0.04 0.23 年化 t值 MKT SMB HML PMO 第5组 alpha 11.0% 5.76 1.03 0.72 0.14 0.20 多空组合 21.9% 7.44 0.05 0.00 -0.03 0.28 年化 t值 MKT SMB HML ILLIQ 第5组 alpha 9.2% 4.62 1.05 0.61 0.12 0.31 多空组合 19.6% 6.40 0.08 -0.14 -0.05 0.41 来源:wind,中泰证券研究所,数据