分析师情感调整分数ASAS ——因子选股系列之八十九 研究结论 分析师情感调整分数(AnalystSentimentAdjustedScore,ASAS)。该因子通过分析师的研报标题和摘要文本序列来捕捉他们对股票的看法,并结合盈利预测调整值作为标签来训练模型。使用双层Transformer和一维卷积网络提取特征,并计算过去三个月内某只股票的情感打分均值作为量化选股因子,全样本RankIC均值为0.04,ICIR为2.0。 自然语言处理(NLP)旨在让计算机理解和处理人类语言。自20世纪中叶起,NLP历经多次发展,涌现出ELIZA、BoW词袋模型、Word2Vec等技术。2017年,基于多头自注意力机制的Transformer模型问世,开启了预训练语言模型 (T-PTLMs)时代,包括BERT、GPT-n和XLNet等,在各项自然语言处理任务中取得显著成绩。 相比于前一篇研究所使用的词袋模型,此次的研报情感打分,我们使用500词的长文本序列作为输入,使用1228万词的腾讯词库进行精准分词,并用200维的腾讯词向量作为词嵌入的预设权重,用逆概率密度函数(IPDF)对标签进行标准化,经过众多NLP模型的基线对比后,选定Transformer作为基础模型。 我们采用双层TransformerEncoder和一维卷积作为最终的训练模型结构,一维卷积在基线对比时就体现了极强的特征提取能力,配合多头注意力机制,能提炼出文本中的段落相关性,和微妙的情感表达。 ASAS因子在沪深300、中证500、中证1000样本空间中的RankIC分别为0.047、0.041、0.037,预测能力较为稳定,各个样本空间的ICIR均大于1,因子稳定性较高。在中证500、中证800和中证1000样本空间中表现出较高的超额年化收益率,尤其在中证1000样本空间中表现最优。此外,中证1000样本空间中,年化波动率相对较低,显示出较低的风险特征。 ASAS因子在IC相关性上和标签、WFR的IC相关性较高,标签的RankIC均值为0.035,ICIR1.4,WFR的RankIC均值为0.029,ICIR1.3,ASAS的RankIC均值为0.040,ICIR2.0,说明模型的升级很好地修正了分析师的盈利预测调整,使得选股能力和稳定性同步提升。 风险提示 量化模型失效风险、市场极端环境冲击 金融工程|专题报告 报告发布日期2023年03月28日 刘静涵021-63325888*3211 liujinghan@orientsec.com.cn 执业证书编号:S0860520080003香港证监会牌照:BSX840 薛耕xuegeng@orientsec.com.cn 基于偏股型基金指数的增强方案:——因 2023-03-06 子选股系列之八十八分析师研报类alpha增强:——因子选股 2023-02-17 系列之八十七研报文本情感倾向因子:——《因子选股 2022-12-06 系列研究之八十六》 有关分析师的申明,见本报告最后部分。其他重要信息披露见分析师申明之后部分,或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。 目录 1.NLP综述4 2.数据说明4 2.1分词4 2.2标签盈利预测调整5 2.3词嵌入6 3.模型对比7 3.1NLP模型介绍7 3.2基线对比7 3.3最终模型:双层Transformer+一维卷积8 4.因子表现10 4.1单因子表现10 4.2因子相关性13 5.风险提示14 6.参考文献14 图表目录 图1:个股报告示例4 图2:分词精准度取决于词库5 图3:文本分词之后的词数分布5 图4:原始盈利预测调整分布6 图5:预处理盈利预测调整分布6 图6:CWV、腾讯的Embedding对比6 图7:各模型训练集损失8 图8:各模型测试集损失8 图9:模型结构9 图10:优化后的超参数9 图11:滚动训练方式10 图12:研报在各样本空间的覆盖率10 图13:ASAS各样本空间综合表现11 图14:ASAS超额净值(全样本)11 图15:ASAS多头净值(全样本)11 图16:ASAS超额净值(沪深300样本空间)11 图17:ASAS多头净值(沪深300样本空间)11 图18:ASAS超额净值(中证500样本空间)12 图19:ASAS多头净值(中证500样本空间)12 图20:ASAS超额净值(中证1000样本空间)12 图21:ASAS多头净值(中证1000样本空间)12 图22:ASAS分组超额净值(全样本)12 图23:ASAS分组超额净值(沪深300样本空间)12 图24:ASAS分组超额净值(中证500样本空间)13 图25:ASAS分组超额净值(中证1000样本空间)13 图26:ASAS各样本空间分组年化超额收益13 图27:因子值相关性(右上半区),IC相关性(左下半区)13 图28:剔除标签之后的因子表现14 1.NLP综述 自然语言处理(NLP)的目的是让计算机能够理解和处理人类语言。自20世纪中叶以来,NLP历经了快速发展和挫折。在20世纪60年代,基于同义词抽取的对话程序ELIZA诞生,同时代诞生了BoW词袋模型,用词频表征文本,在文本分类任务上沿用至今,2013年,Word2Vec诞生,使得每个词能在语料的词空间中使用连续值向量表示,而不是原来的One-Hot表示,赋能80年代发明的神经网络模型RNN和CNN在NLP领域大放异彩,改变了原有技术。 2017年,Google在AttentionIsAllYouNeed论文中引入了Transformer模型,它的诞生初衷是为了实现RNN和CNN的大一统,这个模型结合了多头自注意力机制和编码-解码结构,自推出以来,Transformer模型在各项深度学习任务中得到了广泛应用。 基于Transformer的预训练语言模型(T-PTLMs)在NLP领域非常受欢迎。其中,BERT、GPT-n和XLNet等模型在各种自然语言处理任务中取得了卓越成果。BERT同样由Google在2018年提出,是使用Transformer最早的大模型;GPT-n模型由OpenAI提出,其中GPT-3拥有大约1750亿参数,基于GPT模型开发的网页应用ChatGPT成为全球用户过亿最快的应用程序;XLNet模型由中国科学家杨植麟提出,是一种类BERT的模型,其自回归预训练方法被GPT所采用,在各种NLP任务中超过了同期其他先进模型。 2.数据说明 在《20221206研报文本情感倾向因子》中,我们采用的方法为词袋模型,从标题和摘要中统计前1000个高频词的词频,对关键词的频率用XGBoost对盈利预测调整进行训练,这种方法忽略了词语之间的依赖关系,无视文本的语法和顺序,是NLP中比较古老的文本表征方法。 图1:个股报告示例 本报告将使用合并标题摘要的文本序列作为输入,以分析师盈利预测调整作为训练标签,使得模型能够从原文中提取出分析师的态度,以期在前一篇报告的基础上有所提高。 报告ID 股票代码 发布机构 入库时间 报告期 标题摘要合并 盈利预测调整% 1524916 603866 中信建投 20230112 20221231 桃李面包:Q4业绩短期受疫情影响,23年有望进入恢复 -8.35 1527881 688337 财通证券 20230131 20221231 普源精电:业绩超预期,自研芯片产品持续扩张。核心 -12.02 1534825 688697 广发证券 20230306 20221231 纽威数控:业绩符合预期,新增产能持续落地。核心观 -0.38 1535807 603515 海通证券 20230310 20221231 欧普照明公司公告点评:股权激励提振信心,业绩拐点 -9.54 1527112 603348 信达证券 20230126 20221231 文灿股份:海外业务计提预计负债,Q4业绩承压。事件 -37.37 数据来源:朝阳永续,东方证券研究所 注:在标签处理时我们只保留对最近财年的盈利预测调整值 2.1分词 自然语言处理(NLP)分词是将连续的文本切分成有意义的词汇或短语的过程。分词是NLP任务的基础预处理步骤,通过将文本拆分成更小的单元,便于计算机理解和分析语义,分词方法包括基于规则、基于统计和深度学习等。这里我们使用腾讯的词库,结合jieba分词模块进行分词,腾讯词库大小约为1228万,能分出较为精准的词(图2). 图2:分词精准度取决于词库 数据来源:朝阳永续,东方证券研究所 分词后的序列长度分布如图3所示,有大量的样本长度小于27个词,这是因某些研报并未 提供摘要,可以看到大部分序列都小于500词,所以我们在训练模型时,采用500作为序列最大长度对分词序列进行Padding。 图3:文本分词之后的词数分布 数据来源:朝阳永续,东方证券研究所 2.2标签盈利预测调整 盈利预测调整计算方式为,同一机构针对某一公司的同一财年的净利润,会多次发布研报进行预测,某次预测相比上一次的变化率,称之为盈利预测调整,但一份研报会针对多个财年进行预测,在标签处理时我们只保留对最近财年的盈利预测调整值。 盈利预测调整反映了分析师对于公司现状的情感态度,如果分析师决定上调盈利预测,说明公司的基本面发生了积极的变化,而这种“变化”会以文本的形式反映在研报的标题摘要中,我们用盈利预测调整值所训练出来的模型,可以理解摘要中的正负面信息,从而给出更加客观的情感打分,所以本因子也取名为分析师情感调整打分(AnalystSentimentAdjustedScore,ASAS)。 而盈利预测调整值存在较多的零值和极值,所以我们采用逆概率密度函数(IPDF)对其进 行处理,使其尽量符合正态分布,在神经网络模型中更容易收敛。 有关分析师的申明,见本报告最后部分。其他重要信息披露见分析师申明之后部分,或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。 注:累积分布函数(CDF)来计算随机变量小于或等于给定值的概率。逆概率密度函数 (IPDF)则实现了相反的操作:给定一个概率,它计算出对应的随机变量的值。 图4:原始盈利预测调整分布图5:预处理盈利预测调整分布 数据来源:朝阳永续,东方证券研究所数据来源:朝阳永续,东方证券研究所 2.3词嵌入 Word2Vec是一种用于生成词向量(词嵌入)的技术,它将自然语言中的单词转换为高维空间中的数值向量,使得具有相似意义的单词在空间中靠近。Skip-gram是Word2Vec中的一种模型,通过预测给定单词的上下文来学习这些词嵌入,从而捕捉单词间的语义信息。有两个著名的中文单词嵌入数据集。其中一个数据集是腾讯人工智能实验室嵌入语料库,另一个数据集是中文单词向量ChineseWordVector。 图6:CWV、腾讯的Embedding对比 训练算法 最大词库大小 最大维度开发者 ChineseWordVector腾讯词向量 SGNSDSG 128万1228万 300北师大、人大200腾讯AI实验室 数据来源:TencentAILab,Github,东方证券研究所 腾讯AILab的词向量和ChineseWordVector在以下几个方面存在差异: 语料采集:腾讯AILab词向量的训练语料来自腾讯新闻、天天快报的新闻语料、互联网网页和小说,覆盖多种类型的词汇。相比之下,ChineseWordVector的训练语料来自各领域,如百度百科、维基百科、人民日报、知乎、微博等。 词库构建:腾讯AILab词向量使用了自动发现新词的算法,并计算新词之间的语义相似度。而ChineseWordVector则直接采用了北师大和人大研究者们开源的中文词向量语料库。 训练算法:腾讯AILab词向量采用自研的DirectionalSkip-Gram(DSG)算法,考虑了词对的相对位置,以提高词向量语义表示的