证券分析师 金融工程专题 基于事件分析框架下的分析师文本情绪挖掘 ——分析师专题之一 肖承志 资格编号:S0120521080003 研究助理 邮箱:xiaocz@tebon.com.cn 证券研究报告|金融工程专题 深度报告 2022年09月09日 投资要点: 王成煜 邮箱:wangcy3@tebon.com.cn 相关研究 《基于模型池的机器学习选股——德邦金工机器学习专题之五》2022.05.24 《动态因子筛选——德邦金工机器学习专题之四》2022.03.09 《基于财务与风格因子的机器学习选股——德邦金工机器学习专题之三》2022.01.25 《机器学习残差因子表现归因——德邦金工机器学习专题之二》2021.11.24 《利用机器学习捕捉因子的非线性效应——德邦金工机器学习专题之一》2021.10.18 我们通过分析师预期数据构建了具有超额收益的量化策略。这种超额收益的来源是研报中蕴含的增量信息。分析师通过调研、研究获取信息,并通过研报将这些信息公开。 分析师超预期事件的事前超额收益通常较为显著。乐观的分析师研报发布后,股价通常有正面的表现,然而,事前的涨幅往往更明显。例如,“超预期”事件事前20 个交易日内,对应的股票有5.65%的平均超额收益,而事后只有下1.03%的平均超额收益。 本文基于分析师情绪构建了分析师乐观预期组合。2018年以来的年化收益率为14.2%,相对中证500指数的超额年化收益率为14%,夏普比率为0.497,信息比率为1.884,最大回撤为33.1%。 我们构建的分析师乐观预期基准组合具有三个特征:超额收益稳定,在历史上每年都能够获得正超额收益;选股数量多,策略容量大,平均每期能入选约206只股票;入选股票的盈利能力和稳定性良好,70%以上的股票是沪深300、中证500和 中证1000指数成分股。 以分析师乐观预期组合为基准,通过基本面因子增强策略。我们把使用基本面因子筛选60只股票的组合命名为分析师乐观预期基本面初选60组合。该组合使用了估值类、分析师预期类和财务质量类的基本面因子。2018年以来,策略的年化收 益率达到29.9%,相对中证500指数的超额年化收益率为29.7%,夏普比率为0.983,信息比率为2.214,较分析师乐观预期组合有显著改善。 通过基本面因子筛选60只股票后,通过技术面因子再筛30只股票,将组合命名为分析师乐观预期基本面和技术面精选30组合。在基本面因子的基础上,组合使用动量类和资金流类的技术面因子继续增强,2018年以来的年化收益率为37%, 超额年化收益率为36.8%,夏普比率为1.16,信息比率为2.354,策略表现进一步提升。 风险提示:市场风格变化风险,模型失效风险,数据可用性风险 请务必阅读正文之后的信息披露和法律声明 内容目录 1.引言4 1.1.股票收益的可预测性4 1.2.分析师研报的特点4 1.3.分析师影响股票价格表现的途径5 1.4.从分析师预期数据获取收益的来源——信息差6 2.分析师文本情绪挖掘6 2.1.研报标题关键词6 2.1.1.乐观关键词6 2.1.2.偏乐观关键词7 2.1.3.中性关键词8 2.1.4.悲观关键词9 2.1.5.关键词坐标图9 2.2.分析师乐观预期组合11 2.2.1.股票数量13 2.2.2.月超额收益率13 2.2.3.行业占比13 2.2.4.主要指数占比14 2.3.分析师乐观预期组合特点15 3.分析师乐观预期组合多因子增强策略15 3.1.分析师乐观预期基本面初选60组合15 3.2.分析师乐观预期基本面和技术面精选30组合16 4.结论18 5.参考文献18 6.风险提示19 信息披露20 图表目录 图1:根据是否有分析师覆盖构建的两个投资组合的回测表现4 图2:分析师覆盖股票在主要指数占比情况5 图3:分析师未覆盖股票在主要指数占比情况5 图4:分析师评级情况构建的投资组合股票入选情况5 图5:分析师评级情况构建的投资组合回测表现5 图6:研报标题“量价齐升”事件前后数个交易日的平均累计超额7 图7:研报标题“扩产”事件前后数个交易日的平均累计超额7 图8:研报标题“超预期”事件前后数个交易日的平均累计超额7 图9:研报标题“放量”事件前后数个交易日的平均累计超额7 图10:研报标题“底部”事件前后数个交易日的平均累计超额9 图11:研报标题“静待”事件前后数个交易日的平均累计超额9 图12:研报标题关键词事件前后20个交易日超额涨跌幅平均值坐标图10 图13:分析师乐观预期组合回测表现11 图14:分析师乐观预期组合行业占比(申万一级行业)14 图15:分析师乐观预期组合指数成分占比14 图16:分析师乐观预期、基本面初选60组合回测表现15 图17:分析师乐观预期组合经过基本面和技术面因子精选的30只股票的等权组合17 表1:乐观关键词事件前后超额涨跌幅及事件发生次数7 表2:偏乐观关键词事件前后超额涨跌幅及事件发生次数8 表3:中性关键词事件前后超额涨跌幅及事件发生次数8 表4:悲观关键词事件前后超额涨跌幅及事件发生次数9 表5:分析师乐观预期组合回测结果统计12 表6:分析师乐观预期组合每期入选股票数量13 表7:分析师乐观预期组合每期超额收益率(基准中证500指数)13 表8:基本面增强因子列表15 表9:分析师乐观预期基本面初选60组合回测结果统计16 表10:分析师乐观预期组合因子增强技术面精选使用的因子17 表11:分析师乐观预期组合基本面和技术面精选30组合回测结果统计17 1.引言 1.1.股票收益的可预测性 量化投资要求股票收益在一定程度上可预测。股票的收益一部分来源于风险补偿和错误定价,量化投资者通过有效的数据来捕捉这两种收益来源。 分析师预期数据是公开数据中较典型的有效数据。我们根据分析师数据构建的因子可以分为三类:第一类是根据分析师覆盖和评级情况构建的因子;第二类是基于分析师对个股的目标价、盈利预测等定量数据构建的因子;第三类通过对研报进行关键词提取或自然语言处理构建的因子。本文重点测试第三类因子的有效性。 1.2.分析师研报的特点 分析师对其关注的行业通常有着系统的研究和见解,并对上市公司的最新动态有紧密的关注,因此基于分析师数据进行量化投资是有很强的可解释性和逻辑性的。分析师不仅掌握大量有效信息,还可以对这些信息进行深度解读并给出投资建议[1]。 需要注意的是,分析师覆盖并不等同于分析师乐观预期。通常,分析师倾向于覆盖基本面或股价表现较好的个股。我们将2018年以来有分析师覆盖和没有分析师覆盖的股票分别构建为两个投资组合,各个股票等权。两个组合的回测结果如图1所示: 图1:根据是否有分析师覆盖构建的两个投资组合的回测表现 资料来源:Wind,德邦研究所 注:数据范围是2018年1月1日至2022年7月31日;月初调仓,调仓日起前20个交易日内有发布过研报的股票即 纳入分析师覆盖组合,其他股票纳入未覆盖组合;调仓时排除上市不满240个交易日的股票,排除调仓日当天涨停的股票;等权的持仓权重。 以中证500指数作为基准,有分析师覆盖的股票组合超额年化收益率为6.2%,没有分析师覆盖的组合超额年化收益率为2.9%,仅根据是否有分析师覆盖并不能构建具有良好超额收益的组合。此外,两个投资组合成分股的特征有明显差异。分析师是否覆盖的股票组合在主要指数占比的情况如图2和图3所示,有分析师 覆盖的股票组合中的七成属于沪深300、中证500和中证1000指数成分股,而没有分析师覆盖的股票则通常不是上述指数的成分股。 图2:分析师覆盖股票在主要指数占比情况图3:分析师未覆盖股票在主要指数占比情况 100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% 2018-01-022019-01-022020-01-022021-01-022022-01-02 100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% 2018-01-022019-01-022020-01-022021-01-022022-01-02 沪深300中证500中证1000其它沪深300中证500中证1000其它 资料来源:Wind,德邦研究所 注:数据范围是2018年1月至2022年7月。 资料来源:Wind,德邦研究所 注:数据范围是2018年1月至2022年7月。 另外,当分析师看好一只股票时,倾向于发报告并给出“买入”或“增持”评级;当分析师不看好一只股票时,倾向于减少发研报。这种行为倾向在很大程度上降低了利用评级来预测股价的有效性。如图4和图5,根据四类评级构建组合有两方面的问题。第一,买入和增持评级占总体的94%以上,并不能起到有效的筛选作用;第二,买入和增持评级对应的两个投资组合的区分度不大,且超额收益都不高。因此,仅使用分析师评级数据难以构建具有较高超额收益的组合。因此,我们需要通过分析师研报的文本来更精细地分析情绪和预期。 图4:分析师评级情况构建的投资组合股票入选情况图5:分析师评级情况构建的投资组合回测表现 股票入选总计 5637次 票入选总计 202次 占比46.93%; 股票入选总计 49228次 占比47.50%; 股票入选总计 49820次 占比5.37%; 占比0.19%;股 买入增持中性卖出 资料来源:Wind,德邦研究所 注:数据范围是2018年1月至2022年6月。 资料来源:Wind,德邦研究所 注:数据范围是2018年1月1日至2022年7月31日;月初调仓,调仓日起 前20个交易日内有分析师评级的股票即纳入相应评级组合;调仓日股票池无 入选股票时延续上一调仓日持仓;调仓时排除上市不满240个交易日的股票,排除调仓日当天涨停的股票;等权的持仓权重。 1.3.分析师影响股票价格表现的途径 根据传统资产定价理论,上市公司股票价格反映的是公司未来现金流的折现值,当公司经营状况发生变化,影响到公司的未来现金流时,或者市场环境变化,影响到资本成本和折现率时,股价也会随之波动。据此,分析师在跟踪上市公司经营情况和发表研报的过程中,会通过如下途径影响上市公司股价: 第一,分析师是资本市场重要的信息中介,分析师研报能降低资本市场中的信息不对称。分析师研报内容是市场上公开的信息,并对上市公司的公告的信息构成补充。随着股票市场信息不对称程度的降低,投资者 对流动性风险的敏感性会显著减弱,降低上市公司融资成本,从而有 利于股价[2]并促进资本市场合理配置资源[3]; 第二,分析师通过影响投资者的认知来影响资本成本[4]。投资者倾向于持有更熟悉的股票,因此市场上规模较小、不被广泛关注的股票的特质风 险无法被完全分散补偿[5]。分析师对个股的研报会吸引投资者关注,方便投资者对上市公司经营情况形成更深层的理解,这对股价是有利的。 1.4.从分析师预期数据获取收益的来源——信息差 我们通过梳理研报标题的关键词来挖掘分析师文本的情绪。通常,分析师的文本情绪与上市公司的盈利预期相关,这种情绪会传导到市场并影响股价。分析师给出的盈利预期和通过研报传达的情绪对市场而言是新的信息,对上市公司的财务信息形成补充,这些增量信息或将影响上市公司的股价。 本文从分析师文本情绪挖掘出发,统计研报关键词对股价的影响,并构建基于分析师情绪因子的投资策略,并用基本面和技术面因子来增强策略。 2.分析师文本情绪挖掘 我们从研报文本入手来挖掘分析师情绪。文本内容是非结构化数据,需要将其预处理成结构化的因子数据。本文仅根据研报标题关键词来对分析师情绪进行分类。 2.1.研报标题关键词 我们搜集了2017年到2022年6月的个股研报数据,共计25万余篇。对上述研报的所出现的关键词按乐观、偏乐观、中性和悲观进行分组,我们一共分析了107个关键词,标题出现这些关键词的研报占研报总数的90.6%。 本文人为将情绪关键词归