AI能否学会看图选股机器学习系列 证券研究报告量化投资策略报告2023年5月10日 分析师:李新春 执业证书编号:S0740520080002电话:18019761462 Email:lixcrqlzqcomcn 相关报告 《挖掘资产定价中的隐式因子 机器学习系列》 投资要点 最为常见的技术分析手段就是“看图”。由于人性相近,在相同的外部条件下,人们通常有相近的反应。这一切都会在图中表现出来。技术分析和相关的量价因子,在金融学界和投资界都有广泛的应用。 笔者过往的研究《挖掘资产定价中的隐式因子》,已着手使用机器学习的办法研究量价数据,特别是价格数据背后隐含的市场预期。对价格这样的纯一维数据,我们使用主成分分析(PCA)挖掘隐式因子的特征方向,使用稳健回归(Huber)估计隐式因子的风险溢价。 如果我们同时考虑量价二维数据,例如类似K线图的形式: 此时传统的量化方法无能为力,但我们可以训练神经网络从这些图片中找出能够预测未来收益的模式。 具体而言,我们将含有两条均线的K线图作为特征,股票收益作为标签,使用卷积神经网络(CNN)训练分类模型。在低价股这个样本中,我们使用2011年至2018年的数据训练模型,在2019年至2023年的数据进行推理。将预测结果视作因子值,预测未来一个月收益的IC均值约60,IR约106。对预测结果用排序法检验,多空组合的年化收益率约26,夏普比率约38。多因子回归检验,Top多头组合和多空组合都有显著的alpha。 我们使用约20个交易日的收益数据训练模型后构造了月度换仓策略,该策略在2019年至2023年Q1的样本外上年化收益率约28,夏普比率约149;同期万得全A年化收益约11,夏普比率约066。 风险提示事件:本报结论基于公开的历史数据进行统计、测算,文中部分数据有一定滞后性,同时存在第三方数据提供不准确风险;对基金产品和基金管理人的研究分析结论并不预示其未来表现,也不能保证未来的可持续性,亦不构成投资收益的保证或投资建议;产品的表现受宏观环境、行业基本面超预期变动、市场波动、风格转换等多重因素影响,存在一定波动风险。 内容目录 一、引言3 二、模型在低价股上的表现4 21数据和模型简介4 22对预测结果的因子化分析5 23对预测结果的排序法检验7 24对预测结果的回归分析8 三、中低频策略表现9 风险提示12 一、引言 投机大师利弗莫尔通过对数据加以分类的方式来进行趋势分析,是现代技术分析思想的源头。技术分析通过研究股票过去及现在价格、成交量的变化以及完成这些变化所经历的时间等市场行为的表现形式,透过图表或技术指标的记录来推测未来价格的变动趋势。 技术分析和基本面分析是密切关联,不可分割的。威廉欧奈尔的CANSLIM绩优股投机法,号称结合了基本面分析和技术分析。而对纯粹的基本面投资者而言,技术分析也有参考和辅助的价值。 尽管市场和交易的范式在演化,技术分析多年来一直存在,也许是因为视觉分析模式更有利于人类的认知,而模式识别(在过去)是计算机相对于人类没有绝对优势的领域(Loetal2000)。 然而深度学习的发展,让计算机逐渐打破了看图的壁垒。Jiang等(2021)提出了使用机器学习基于股票价格图表预测未来收益。他们识别出的特征模式和传统的技术指标有很大区别,并且在不同国家和地区都有较好表现: 图1:Jiang等(2021)模型在不同国家和地区的测试结果:多空组合夏普比率 来源:Jiangetal2021,中泰证券研究所 注:直接迁移的模型基于美股数据训练,使用其他国家和地区数据进行推理。重训练(Retrain)则使用当地数据重新训练模型。其中,,分别代表1,5和10的显著水平。 参考Jiang等(2021)的工作,我们在A股上尝试复现和改进CNN对K线图的分类和预测模型。与他们的结论(训练结果有跨地区鲁棒性)不同,我们发现在低价股样本中,在附加多条K线图的情况下,模型有更好的样本外表现。 二、模型在低价股上的表现 21数据和模型简介 对低价股票群体,我们使用日频的开盘、收盘、最高、最低和日度成交量数据,并使用历史收盘价计算移动平均线。直观上来说,我们采集了如下图的数据: 图2:未经处理的K线图示意图 来源:同花顺,中泰证券研究所,数据截至20230331 结合CNN对图像的处理方式,我们将K线图转换为灰度图形式,使用最近 20个交易日的四个价格、均线和成交量信息,并统一进行放缩: 图3:实际输入特征示意图 来源:wind,中泰证券研究所,数据截至20230331 我们使用未来5个交易日或者20个交易日的累计收益,作为分类标签Y。当绝对收益为正时,标签值为1;否则标签值为0。 我们选择CNN作为分类模型,它的核心构建模块由三个操作组成:卷积、激活和池化。神经网络最后链接到一个全连接层并使用softmax作为激活函数。训练后的模型对输入特征输出一个能够获得正(绝对)收益的概率。 22对预测结果的因子化分析 我们使用2011年至2018年的A股量价数据作为训练集,其中约30的数据作为验证集;2019年至2023年Q1的A股量价数据作为样本外数据。 训练后的模型在样本外数据上只进行推理,然后得到日频的预测分数。我们将预测分数视作截面上的因子值,与未来5个、10个和20个交易日的累计收益进行因子分析。分析过程中我们使用了标准的Python第三方包:Alphalens。 三个期限预测未来收益均值的分组图如下。由图可知在预测未来5个交易日 的收益时,因子值即预测分数有较为客观的分组效果;对预测未来10或20个交易日,也有较好的分组效果。 图4:预测未来收益均值的分组图 来源:wind,中泰证券研究所,数据截至20230331 预测未来收益的风琴图如下所示。各个期限在第5组的分布相比其它组,离群值都出现了增加现象;所幸的是向上(获得正收益)增加的个体多于向下的个体。这说明,如果以此因子构建多头组合,我们要么设臵较高的阈值,要么持有足够多的标的。 图4:预测未来收益的风琴图 来源:wind,中泰证券研究所,数据截至20230331 因子的信息比率如下表所示,t值在不同期限下的结果都非常显著: 图5:因子的信息比率 Kurtosis 5D 55 0061 0899 28596 0 0092 0448 10D 56 0056 1007 32019 0 0114 026 20D 60 0056 1066 33925 0 0282 0694 ICMeanICStd IR tstatICpvalueIC ICSkew IC 来源:wind,中泰证券研究所,数据截至20230331 最后我们给出不同期限的月度平均IC表格: 图5:预测5D和10D的月度平均IC 来源:wind,中泰证券研究所,数据截至20230331 以及: 图6:预测20D的月度平均IC 来源:wind,中泰证券研究所,数据截至20230331 23对预测结果的排序法检验 类似上一节,我们将样本内股票(剔除涨跌停和ST)在截面上按照预测值从低到高排名,然后分为5组;做空得分最低的第1组股票,做多得分最高的 第5组股票得到多空组合。由此得到的各组合累计净值表现如下: 图7:分组及多空组合的累计净值表现 来源:wind,中泰证券研究所,数据截至20230331 对多空组合,我们进一步给出收益、风险指标和前5次最大回撤如下: 图8:多空组合的收益和风险指标 累计收益率 16981 开始 结束 回撤 持续天数 年化收益率 2635 202091 2020928 440 27 夏普比率 376 2020217 202034 427 16 Calmar 599 20201216 2021119 348 34 Sortino 649 2020109 2020122 307 54 2021715 202198 290 55 来源:wind,中泰证券研究所,数据截至20230331 以及多空组合的月度收益图,正收益月份占比约863: 图9:多空组合的月度收益 来源:wind,中泰证券研究所,数据截至20230331 24对预测结果的回归分析 我们对第5组合Top和多空组合进行回归分析,回归变量为FF5以及FF3动量、反转、换手率和(逆)流动性因子,检验回归后残差的显著性。其中除市场因子外,其他多空因子都按照FamaFrench1993构造。 回归区间为2019年至2023年Q1,所得结果如下。多头组合(第5组)仅在小市值因子上有较高的暴露(约07),但是各种回归情况下都有较强的alpha,且通过显著性检验(t值都大于2)。多空组合仅在逆流动性因子上有相对高暴露 年化 alpha t值 MKT SMB HML RMW CMA 第5组 116 554 102 077 023 005 015 多空组合 221 710 004 012 013 012 026 年化 alpha t值 MKT SMB HML MOM (约04),但是各种回归情况下都有较强的alpha,且通过显著性检验(t值都大于2)。 图10:多头及多空组合的FF5因子回归分析 第5组 128 600 101 070 016 001 多空组合 247 771 003 003 003 006 年化 t值 MKT SMB HML REV 第5组 alpha 118 634 101 071 013 015 多空组合 229 807 003 001 004 023 年化 t值 MKT SMB HML PMO 第5组 alpha 110 576 103 072 014 020 多空组合 219 744 005 000 003 028 年化 t值 MKT SMB HML ILLIQ 第5组 alpha 92 462 105 061 012 031 多空组合 196 640 008 014 005 041 来源:wind,中泰证券研究所,数据截至20230331 三、中低频策略表现 周频换仓策略有较高的手续费和交易难度,不一定适合所有的投资者。我们这里把标签值的频率降到月频,即使用20个交易日的累计收益作为Y值。我们仍然使用2011年至2018年的A股量价数据作为训练集,其中约30的数据作为验证集;2019年至2023年Q1的A股量价数据作为样本外数据 训练后的模型在样本外数据上只进行推理,然后得到日频的预测分数。我们 只选择月末的数据来构造月度换仓投资策略。具体而言,我们设定预测概率阈值为08,每个月末选择20只股票(不足则留空),剔除ST和买入日涨停的股票。我们选择万得全A作为对比基准,以上策略的累计净值表现如下: 图11:月频换仓策略累计收益对比万得全A 来源:wind,中泰证券研究所,数据截至20230331 两者各年度收益对比如下,除去特定行情年份,我们的策略表现更好: 图12:月频换仓策略年度收益对比万得全A 来源:wind,中泰证券研究所,数据截至20230331 主要的收益、风险指标和前5次最大回撤如下: 图13:月度换仓策略收益、风险指标对比万得全A 月度策略万得全A月度策略前五次最大回撤 累计收益率 18442 5799 开始 结束 回撤 持续天数 年化收益率 2793 1138 202233 2022812 2402 162 夏普比率 149 066 2019911 2020420 1268 222 Calmar 116 041 202115 202133 1181 57 Sortino 222 092 2022818 2022117 939 81 2019116 2019213 936 28 来源:wind,中泰证券研究所,数据截至20230331 最后我们给出月度换仓策略的月度收益情况,该策略月度胜率约63: 图9:月度换仓策略的月度收益 来源:wind,中泰证券研究所,数据截至20230331 风险提示 本报结论