研报文本情感倾向因子 ——《因子选股系列研究之八十六》 研究结论 分析师研报数据是相对独立的信息源,本报告基于朝阳永续的研报标题和摘要文本、盈利预测,用多种NLP模型提取文本特征,判断研报的情感倾向。 文本的处理有多种多样的方式,文本特征具有稀疏的特性,本文通过正则匹配、同义映射、词向量映射三种方法对文本特征进行降维,在同样的特征维度中可以囊括更多的信息,提升因子表现的同时,增加了模型的可解释性。对降维后的特征用XGB和RNN模型对研报盈利预测调整幅度进行回归训练。 金融工程|专题报告 报告发布日期2022年12月06日 王星星021-63325888*6108 wangxingxing@orientsec.com.cn 执业证书编号:S0860517100001 薛耕xuegeng@orientsec.com.cn 标题日期 本文用多种处理方法和模型构建了如下5个因子: 1.词频因子RPTF:统计训练窗口内的高频词,形成log词频矩阵,用XGB进行回归预测,全样本RankIC3.4%,ICIR1.3,年化收益率20%。缺点是单词特征并不能体现出情感倾向,如果“利润”“成本”“增加”三个词同时出现的话,逻辑上模型并不能知道是利润在增加还是成本在增加,于是衍生出RPRF因子。 2.正则表达式因子RPRF:人工提取研报中常见、并且具有情感倾向的表达,类似于((产能)|(规模)|(如期)).∗((达产)|(投放)),形成regex的One-Hot矩阵,用XGB进行回归预测,全样本RankIC3.5%,ICIR1.7,年化收益率19%。缺点是人工提取regex费时费力且不全面,需要不断更新表达式以适应新的表达,于是衍生出RPBF因子。 3.同义映射词组因子RPBF:将分词用同义词进行映射降维,相邻两词组成一个词组,统计高频词组,形成词组频矩阵,用XGB进行回归预测,全样本RankIC3.5%,ICIR1.5,年化收益率19%。缺点是只包括了文本的离散特征而遗漏了文本的时序特征,于是衍生出RPNN因子。 4.循环神经网络因子RPNN:将分词序列用词向量进行映射,形成词向量序列,用单层GRU进行训练预测,全样本RankIC3.0%,ICIR1.2,年化收益率16%。缺点是比较消耗算力,只能对标题进行训练,且模型比较黑箱。 5.合成因子RPST:由前面四个因子等权合成,全样本RankIC3.8%,ICIR1.4,年化收益率20%,中性化之后全样本RankIC3.9%,ICIR2.4,年化收益率19%,各项回测指标都超过WFR,符合预期。 本文分开使用标题文本和摘要文本提取体征,因为经过测试发现摘要文本中蕴含着大量增量信息,在RPTF模型中摘要信息的加入能够提升一倍的多头年化收益率,从5%提升到11%。 前四个因子使用相同的文本数据和训练标签,但是彼此之间的因子相关性在0.57-0.67,相关性并不算高,说明对于文本的不同特征抓取方式其实包含了不同的信息。将训练标签——盈利调整,按照同样的方式构建成因子,可以发现四因子和盈利调整均值的相关性在0.42-0.55,说明模型从文本中学习到了额外的信息。 RPST在各个样本空间进行行业市值中性化之后,选股能力RankIC在中证1000中提升到了4.5%,而在沪深300中下降到了2.4%,这种现象在WFR因子中也同样存在,而在全样本中,中性化之后ICIR和Sharpe都有明显提升,MaxDD在各样本空间都显著下降,说明选股能力和盈利能力在剔除了行业市值的影响之后都变得更加稳定。 更稳健易算的分析师盈利上调因子:—— 《因子选股系列研究之七十三》 2021-03-09 全样本 全样本中性化沪深300 沪深300中性化中证500 中证500中性化中证800 中证800中性化 RPST因子表现 RankICICIRTurnoverSharpeAnnRetVolMaxDD 0.0381.43539.2%1.75720.4%0.109-27.6% 0.0392.36942.5%2.31219.4%0.078-16.3% 0.0360.97136.8%0.93813.4%0.145-40.6% 0.0241.24742.4%0.9279.3%0.101-29.8% 0.0290.99937.3%1.24715.8%0.124-32.6% 0.0352.07841.1%1.97917.7%0.084-13.4% 0.0321.04935.2%1.32916.4%0.119-27.7% 0.0291.94142.7%1.79915.3%0.081-19.2% 中证1000 0.028 1.236 38.2% 1.788 19.5% 0.103-22.4% 中证1000中性化 0.045 3.461 38.9% 2.396 18.7% 0.073-10.9% 风险提示量化模型失效风险;市场极端环境冲击 有关分析师的申明,见本报告最后部分。其他重要信息披露见分析师申明之后部分,或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。 目录 1.概括6 2.数据说明6 2.1个股报告6 2.2分词7 3.词频因子RPTF8 3.1RPTF模型框架8 滚动划分数据集8 提取特征X8 处理标签Y9 训练模型9 因子构建10 3.2RPTF因子表现10 4.正则表达式因子RPRF12 4.1RPRF模型框架12 总结正则表达式12 提取特征X13 4.2RPRF因子表现13 5.同义映射词组因子RPBF15 5.1RPBF模型框架15 同义映射组成Bigram15 5.2RPBF因子表现16 6.循环神经网络因子RPNN18 6.1RPNN模型框架18 词向量映射18 提取特征X19 训练模型19 6.2RPNN因子表现19 7.四因子合成RPST21 7.1合成前后对比分析21 7.2RPST因子表现22 8.标签的对比,以同义词组RPBF为例23 8.1盈利调整与异常收益23 8.2分类与回归24 9.总结24 参考文献25 风险提示25 图表目录 图1:个股报告示例6 图2:个股报告数量以及股票覆盖数量7 图3:股票覆盖在各成分股中的占比7 图4:分词流程7 图5:滚动划分数据集8 图6:特征及标签样本9 图7:近年来基于树的算法的演变过程10 图8:RPTF各样本空间回测表现(20130101-20221031),年份列为多空收益10 图9:RPTF因子IC信息11 图10:RPTF分组相对收益净值(颜色越深因子值越高)11 图11:RPTF中摘要所带来的年化收益增量11 图12:标题+摘要中的重要词11 图13:标题中的重要词11 图14:表达式每年对研报的覆盖率12 图15:RPRF特征样式13 图16:RPRF各样本空间回测表现(20130101-20221031)13 图17:RPRF分组对冲年化收益13 图18:RPRF分组净值13 图19:RPRF特征重要性14 图20:《哈工大同义词词林》编码举例15 图21:对分词进行同义映射的过程举例16 图22:词组降维举例16 图23:同义映射后的分词组成bigram的举例16 图24:RPBF各样本空间回测表现(20130101-20221031)16 图25:RPBF分组对冲年化收益17 图26:RPBF分组净值17 图27:重要bigram特征举例17 图28:One-Hot和WordEmbedding19 图29:词空间中距离“加大”较近的词19 图30:词向量映射举例19 图31:RPNN各样本空间回测表现(20130101-20221031)20 图32:RPNN分组对冲年化收益20 图33:RPNN分组净值20 图34:研报情感倾向因子和其他超预期因子的因子值相关性21 图35:研报情感倾向因子和其他超预期因子的IC序列相关性21 图36:RPST、四因子、调整均值全样本空间回测表现(20130101-20221031)21 图37:RPST各样本空间回测表现(20130101-20221031)22 图38:RPST分十组年化相对收益22 图39:RPST分十组相对收益净值22 图40:RPST各样本空间中性化后的表现23 图41:盈利调整与异常收益分类标签分组年化收益对比23 图42:盈利调整与异常收益分类标签IC累加对比23 图43:回归与分类标签分组年化收益对比24 图44:回归与分类标签IC累加对比24 1.概括 分析师报告拥有大量的非结构化信息,可以给结构化数据带来信息增量。同时分析师倾向于基本面向好或热门的股票,对于其他冷门股票倾向于不发表观点,且报告中对于负面信息的措辞也会较为委婉,需要通过文本挖掘的方式解析出来。对研报文本数据进行挖掘往往比公司财报更加及时,也提供了信息增量,且分析师情绪会传导到市场,影响股价,所以针对研报进行文本挖掘具有研究价值。 针对研报进行文本挖掘的现行研究有多种,根据模型类型分为两类:1)词序模型,用预训练的Transformer模型对文本直接进行预测;2)词频模型,用经验或者统计来锁定关键词,统计这些词在测试集上的出现频率,对词频直接进行加总计分,或者用树模型进行学习。 本文用个股报告的文本对报告的情感倾向进行训练和预测,数据特征为个股报告的标题和摘要的分词序列,训练标签为分析师盈利预测调整,共采用四种模型,不同的数据处理方式和训练算法形成四个单因子,合成分析师情感倾向因子RPST(Report-Sentiment)。本文的主旨是让模型学习文本中的情感表达,以期获得研报内容的情感倾向因子。 对文本进行情感建模的一项重要工作是人工给文本标记情感,并以此作为学习目标。然而人工打标签的模式费时费力,所幸分析师撰写研报本文的同时一般也会给出报告的盈利预测,无论是研报的文本信息还是盈利预测调整均是对覆盖标的的情感表达,因此盈利预测调整幅度是天然的研报文本标签。部分投资者可能会质疑为何不用盈利预测本身作为研报的情感因子,因为通过将图片和与其关联的评论文本放在一起做多模态学习有助于模型学习图片和文本的内部结构信息,类似的我们将分析师研报文本和盈利预测调整放在一起有助于模型从文本中提取信息,而这些信息在盈利预测调整中并不一定有所表达,本文实证结果中RPST的各项回测指标均超过WFR(盈余调整度量,WeightedForecastRevision)在一定程度上也印证了上述想法。 图1:个股报告示例 2.数据说明 2.1个股报告 总体的个股报告有200万篇,数据来源于朝阳永续,本文的研究样本只针对存在盈利调整的 个股研究报告,限定时间区间为2006年1月1日到2022年10月31日,经过去重之后总共有 500854个样本。 报告id 个股代码 券商 入库日期 报告期利 润调整(% )研报标题 研报摘要 334113 300206 宏源证券 2011-08-22 20111231 0.00 理邦仪器:研发驱动未来盈利增长 成本增加,中报业绩增长…… 568667 601318 国信证券 2013-10-28 20131231 0.42 中国平安:资产负债管理面临挑战 净利润同比增长45.1%,符合…… 1194363 300014 国金证券 2019-09-01 20191231 29.28亿纬锂能:电子烟和锂原电池支撑Q3业绩预告超预期2019Q3,公司预计实现…… 572867 600337 中信证券 2013-10-30 20131231 0.00美克股份:销售盈利齐向好,经营改革见成效1-9月扣非后归属净利增…… 1204485 002841 中信证券 2019-10-27 20191231 0.00视源股份:高基数下收入阶段性放缓,盈利继续强劲维持2019-21年归母净利…… 数据来源:朝阳永续,东方证券研究所 投资者在使用分析师预期数据时比较关心的一个问题是预期数据的覆盖率,图2可以看出 2