人工智能可以读懂企业高管的想法吗? ——“学海拾珠”系列之一百�十二 金融工程 专题报告 主要观点: 报告日期:2023-8-2 分析师:严佳炜 执业证书号:S0010520070001邮箱:yanjw@hazq.com 分析师:吴正宇 执业证书号:S0010522090001邮箱:wuzy@hazq.com 相关报告 1.《动量、反转和基金经理过度自信 ——“学海拾珠”系列之一百四十四 2.《股票因子个性化:基于股票嵌入的因子优化——“学海拾珠”系列之一百四十�》 3.《盈余公告披露的现象、方法和目的——“学海拾珠”系列之一百四十六》 4.《基金抛售资产时的选择性偏差— —“学海拾珠”系列之一百四十七》 5.《投资者情绪能预测规模溢价吗? ——“学海拾珠”系列之一百四十八 6.《基于强化学习和障碍函数的自适应风险管理在组合优化中的应用——“学海拾珠”系列之一百四十九》 7.《运用少量ETF可以复制主动基金的业绩吗?——“学海拾珠”系列之一百�十》 8.《A股流动性、波动性及其溢出效应——“学海拾珠”系列之一百�十一》 本篇是“学海拾珠”系列第一百�十二篇,作者利用美国公司定期季报和年报的文本信息,通过情绪模型、词袋模型和大型语言模型(LLM), 来预测未来的公司盈余惊喜。实证结果发现,公开披露的公司文件中的积 极和消极信息往往隐藏在其大量复杂的文本中,而近期的人工智能模型相比传统模型可以更好的识别信息。回到国内市场,财务报告中的文本信息尚待挖掘,可借鉴本文的研究思路寻找文本中的alpha。 MD&A部分的长度与公司未来盈余呈负相关 与更复杂的情绪模型相比,管理层讨论与分析(MD&A)或风险因素 (RF)章节的词汇长度能够更好地预测未来公司的表现。实证发现,具有较低的MD&A长度的公司显著优于具有较高MD&A长度的公司。 词袋模型无法从过去公告中“学习”预测未来盈余 文章实证表明,通过训练机器学习算法的词袋模型无法识别未来的积极或消极的盈余惊喜。作者认为传统的NLP方法失败的部分原因是公司公告日益增加的长度和复杂性。 经过财务目标训练LLM模型可以有效预测未来盈余 依据下个季度的预期盈余惊喜,在月底分为�组投资组合。经过财务目标训练的LLM模型在所有的多空投资组合策略都具有经济和统计上的显著并且预测盈余符号正确,显著优于情绪模型和词袋模型。 风险提示 文献结论基于历史数据与海外文献进行总结;不构成任何投资建议。 敬请参阅末页重要声明及评级说明证券研究报告 正文目录 1引言4 2数据7 3NLP方法9 3.1词汇(情感-得分)方法9 3.2词袋模型10 3.2.1基本机器学习方法10 3.2.2线性回归10 3.2.3LM回归10 3.2.4惩罚线性回归10 3.2.5梯度提升回归树和随机森林模型11 3.2.6支持向量回归11 3.2.7前馈神经网络11 3.2.8模型微调12 3.3大型语言模型(LLM):层次转换器方法12 3.3.1输入编码14 3.3.2BERT层14 3.3.3Transformer层14 3.3.4池化层15 3.3.5线性预测器15 3.3.6预测目标与损失函数15 4实证分析:模型绩效比较16 4.1投资组合分类17 4.1.1动态跨期投资组合绩效21 4.2预测股票回报:线性回归法21 4.3事件研究回归:盈余公告22 5结论23 风险提示:24 图表目录 图表1年报的MD&A和风险因素部分的字符长度5 图表2序列验证过程的说明9 图表3基本机器学习模型超参数12 图表4HIERARCHICALTRANSFORMER体系结构14 图表5样本外MSE和R217 图表6基于词汇和情感的模型:投资组合表现18 图表7LLM模型:投资组合表现20 图表8预测股票收益:一种线性回归方法22 图表9事件研究:盈余公告及报告日回报23 1引言 在信息丰富的情况下,经济主体如何处理信息?文本数据在金融中已经广泛应用(Goldstein等人,2021),提取和处理这些数据的成本在过去十年中大幅降低。即使是在公司报告过程中最基本的项目,如季度(10-Q)和年报(10-K),披露信息中信号的丰富性和复杂性会导致投资者忽视微妙但重要的信号,(Cohen等人。2020年)。 为了应对企业文件日益增加的长度和过度复杂内容(Loughran和McDonald,2014),以及管理层通过提供无关或非实质的细节来混淆负面信息的动机(Li,2008),文献介绍了几种内容分析措施。最突出的一种方法是基于一个单词列表,其中每个单词被分为积极或消极两类,即手工构建的词汇方法。文献中的早期论文使用了《哈佛心理社会学词典》中的单词分类来识别积极与消极的新闻内容(Tetlock,2007)。然而Loughran和McDonald(2011)(以下简称LM2011)认为,哈佛词典列表可 能不适用于金融应用,因为这些词在金融语境中有不同的内涵。LM2011在年报告的基础上创建了一个全面的积极和消极词汇列表,并认为他们的消极词汇列表比哈佛的列表更能捕捉年报基调。 另一种改进了LM2011分类是词袋模型(bag-of-wordstypemodels),它主 要基于词典中每个词的权重。模型可以通过线性回归(Jegadeesh和Wu,2013)或经典的机器学习技术,如支持向量机(Manela和Moreira,2017)来实现。 然而最近,Cao等人(2023)发现,在LM2011发表后不久,期望从EDGAR获得年报下载量高的公司,即对报告进行机器算法分类的几率较高的公司,开始避免使用LM负面词汇。这不仅削弱了基于字典的方法,而且削弱了严重依赖于文档中的单词计数的词袋模型。因此,随着公司报告的长度在过去十年呈指数级增长 (Cohen等人,2020),对未来财务业绩的正面和负面信息内容进行分类和识别仍然是一项具有挑战性的任务。 大型语言模型LLM与经典的NLP方法不同,其中ChatGPT自2022年11月公开发布以来是最知名的一种。它们并不仅仅依赖于单词或其数量,而是能够识别文档中单词、句子和段落之间的关系。从理论上讲,LLM模型应该更擅长从金融文本数据中捕获信息,因为金融书面文本具有高度语境化的性质,而这很难用被基于词汇的模型捕获。不仅仅是经典NLP模型的失败,市场参与者本身也无法领会微妙的管理信息,这些信息隐藏在大量的文本中(Cohen等人,2020)。 目前,考虑到所需的计算资源,最可能访问和最容易实现的LLM是由Google开发的预训练BERT(Devlin等人,2009年)。BERT是在一个大型文本语料库上进行预训练的模型,该语料库涵盖了互联网一系列内容,而不只是关注公司报告的财务背景。因此,这可能是一个适用于企业文件分类的嘈杂模型。Huang等人(2022)将财务分析报告分为积极、消极或中性的10000句话进行微调,将BERT命名为FinBERT,并认为与其他基于词典的方法相比,FinBERT对财务报告的分类精度更高。虽然这是一种改进,但FinBERT在对人工标注文本进行微调时也存在问题,管 理人员可以控制这些文本、从一个报告更改到另一个报告,甚至开始避免使用这些文本。的确,Cao等人(2023)研究表明,FinBERT负面情绪分类率在2018年后的发布样本中有所下降。在本文的结果中,作者发现2011年LM和FinBERT负面分类分数之间的相关性很高,为0.68。因此,FinBERT甚至可以在2018年之前继承LM-2011基于词汇的方法(Cao等人,2023)的类似问题。此外,它已经对人类标注的文本语料库进行了彻底的微调,而报告的语言及其长度一直在动态变化 (Cohen等人,2020年)。 到目前为止,还没有一项全面的研究讨论以下几点:(i)在确定的季报和年报中关于未来现金流和公司整体财务业绩的积极和消极信息方面,一种方法如何与另一种方法进行比较;(ii)鉴于管理层调整语言,公司报告的分类是否完全准确(Cao等人,2023);(iii)企业内部人士是否能够沟通,市场参与者是否能够把握和提取报告复杂性背后的正确信号(Cohen等人,2020)。后者本质上是对市场效率的一种间接检验—在由人类和机器仔细审查的公开季报和年报等公司文件中,是否存在未被发现、尚未被市场参与者感知并纳入价格的隐藏信息? 为了回答这些问题,利用美国公司历年的季报和年报,作者在三种方法之间进行比较:(i)情绪组:关键词词汇情感(LM2011),LLM情感分类(FinBERT)或管理讨论的长度(MD&A,或风险因素部分);(ii)词袋组:一种基于分类、回归的方法,类似于Jegadeesh和Wu(2013)或Manela和Moreira(2017),但使用了更广泛的经典ML算法;(iii)下文中介绍的新型LLM方法。 与Cohen等人(2020年)类似,作者的分析重点是报告的MD&A和风险因素部分。图表1显示了年报的MD&A和风险因子RF的平均长度。从1994年到2021年,MD&A的平均长度增加了6倍,RF的平均长度增加了4倍。报告的长度和复杂性不断增加,使得投资者忽视了未来公司业绩的重要基础信息(Cohen等人,2020)。 图表1年报的MD&A和风险因素部分的字符长度 资料来源:《CanAIReadtheMindsofCorporateExecutives?》,华安证券研究所 比较的规则是什么?与传统的NLP方法对文件进行情绪评分不同,在金融领域,我们习惯于看到这些标识提供的经济增值。换句话说,任何提出的改进都应该体现为正面评级公司与负面评级公司在未来报告中的显著价格差异。 本文将进行如下处理。首先,在方法论方面做出了贡献,与字典/关键词、LM2011 或人类标记的金融文本训练方法(如FinBERT)不同,本文针对金融目标训练算法。大多数文献使用盈余公告日回报,或盈余公告窗口附近的异常回报作为财务目标(见其他文献LM2011,Jegadeesh和Wu(2013))。这些财务目标建立在市场效率假设的基础上。然而,Cohen等人(2020)清楚地表明,市场对财务文件格式的变化没有任何反应,这些文件随后预测在报告公开后的一个季度内的几个月内会出现重大财务损失和负回报。此外,盈余公告回报也因投资者对负面和正面惊喜的反应不 足或过度而闻名(Atmaz和Basak(2018),Golez和Goyenko(2022))。综上所述,这些因素使得盈余公告回报成为一个嘈杂的目标。相反,我们将下一季度盈余惊喜作为一个财务目标,因为这些基本信息经过审计,不依赖于市场的解释/反应。Cohen等人(2020)也表明,随后的公告确实反映了市场在上一季度公告中忽略的信息。此外,作为财务目标的盈余惊喜,作者通过已实现盈余与分析师共识预测的偏差来衡量,可以直接与市场忽略的信息内容对话。虽然该目标是通过先前研究未处理的高标准(LM2011,Jegadeesh和Wu(2013)),但这是唯一没有噪声的目标。为了衡量来自这些预测的经济盈余,作者遵循Cohen等人(2020),并根据未来盈余惊喜预测将所有公司分类为�分位投资组合,然后衡量未来长期赢家(正盈余惊喜)和短期未来输家(负未预期盈余)�分位组合策略的绩效表现。 其次,作者是第一个提出分层的LLM架构,可以处理任意长度的财务披露报表, 并针对财务目标训练这些模型。首先训练一个从原始的、现成的BERT(Devlin等人,2018)衍生出来的模型来预测盈余惊喜,将其命名为FrozenBERT;也就是说,作者不改变或微调原始BERT模型中的任何参数,只训练一个预测网络,一个基于预训练BERT表示的Transformer层。其次,在训练预测盈余惊喜时,对原始BERT进行了微调;将此模型命名为FtBERT(“微调BERT”)。据作者所知,在金融文献中,从来没有对LLM模型这样做过。当公司动态地改变和调整语言以适应机器阅读时,FtBERT克服了LM2011或FinBERT的问题(C