您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[联邦储备系统]:美联储制造业情绪:用文本分析预测工业生产(英) - 发现报告
当前位置:首页/行业研究/报告详情/

美联储制造业情绪:用文本分析预测工业生产(英)

机械设备2024-05-14Tomaz Cajner、Leland D. Crane、Christopher Kurz联邦储备系统S***
AI智能总结
查看更多
美联储制造业情绪:用文本分析预测工业生产(英)

财经系列讨论 联邦储备委员会,华盛顿特区,ISSN1936 -2854(打印) ISSN2767-3898(在线) 制造业情绪:基于文本分析的工业生产预测 TomazCajner,LelandD.Crane,ChristopherKurz,NormanMorin,PaulE.Soto,BetsyVrankovich 2024-026 请引用本文为: Cajner,Tomaz,LelandD.Crane,ChristopherKurz,NormanMorin,PaulE.Soto和BetsyVrankovich(2024)。“制造业情绪:通过文本分析预测工业生产”,《2024-026》。华盛顿:联邦储备系统政府委员会,https://doi.org/10.17016/FEDS.024. 注意:金融和经济讨论系列(FEDS)中的员工工作文件是为激发讨论和评论而分发的初步材料。提出的分析和结论是作者的分析和结论,并不表示其他研究人员或理事会成员的同意。在出版物中引用的金融和经济讨论系列(除了承认)应清除与作者(S),以保护这些论文的暂定性质。 制造情绪:基于文本分析的工业生产预测∗ TomazCajnerNormanMorin LelandD.CranePaulE.Soto 2024年4月 Abstract ChristopherKurzBetsyVrankovich 本文研究了工业生产与美国自然语言调查回应中表达的情感之间的联系。S.制造公司。我们比较了几种用于对情感进行分类的自然语言处理(NLP)技术,从基于字典的方法到现代深度学习方法 。使用手动标记的样本作为基本事实,我们发现深度学习模型-部分地在我们的数据的人类标记样本上训练-优于其他方法来分类调查响应的情绪。此外,我们利用数据的面板性质来训练使用滞后的公司级文本预测公司级生产的模型。这使我们能够利用大量的“自然发生”标签样本,而无需手动输入。然后,我们评估汇总到每月时间序列的每种情绪度量可以作为有用的统计指标并预测工业生产的程度。我们的结果表明,文本响应提供的信息超出了来自同一调查的可用数值数据,并改善了样本外预测;深度学习方法和自然存在的标签的使用似乎对预测特别有用。我们还探索了是什么驱动了深度学习模型的预测,并发现相对较少的单词——与非常积极/消极的情绪相关——占总体情绪指数变化的大部分。 JEL代码:C1,E17,O14 关键词:工业生产,自然语言处理,机器学习,预测 ∗所有作者都在联邦储备委员会。我们感谢供应管理研究所,包括克里斯蒂娜·卡希尔,汤姆·德里,黛比·福格尔·蒙尼森,罗斯·玛丽·古皮尔,保罗·李,苏珊·马蒂和丹尼斯·沃洛维茨基,以获取和帮助制造业调查数据,这些数据是本文所述工作的基础。我们感谢StepheHase、AdreasJoseph、JriMarccci、ArthrTrrell以及政府经济学家协会年会的与会者提出的意见和建议。ESCoE经济测量会议,政府统计编程进展会议,经济测量学会会议以及宏观经济中的非传统数据,机器学习和自然语言处理会议。此处列出的分析和结论是作者的分析和结论,并不表示研究人员或理事会的其他成员的同意。 1Introduction 近年来,金融和宏观经济学对自然语言处理(NLP)的兴趣激增。使用文本数据来预测和辅助模型估计正变得越来越普遍。尽管如此,关于NLP在实证工作中的使用还有许多悬而未决的问题。Forexample,whichofthemberavailablemethodsworbest,adworbestispecificcotext?Areoff-the-shelftoolsappropriate,orarethereweregreaterretrstospeciallymodelstothedataathad?例如制造输出?什么解释了复杂的NLP模型所做的预测?本文使用新颖的数据集和各种NLP方法解决了这些问题,从传统词典到微调变压器神经网络。 我们的主要数据来源是供应管理协会(ISM)商业制造报告的月度调查微观数据。这项调查是由美国代表性样本的采购经理进行的。S.制造公司。调查的一部分包括有关其当前运营方面的分类回答问题,包括生产,库存,积压,就业和新订单。这些问题的答案是“比上个月更差/相同/更好”的形式,并被汇总到广泛报道的ISM扩散指数中。但是调查还包括自由回复文本框,采购经理可以在其中提供有关其业务的一般或特定方面的进一步评论;这些评论是有关经济的新信号来源,也是我们在本文中关注的重点。1 我们的第一步是将文本量化为经济上重要且可解释的 措施。我们关注的是情绪,因为乐观和悲观的浪潮在本质上与商业周期波动有关(凯恩斯,1937)。我们首先评估各种NLP方法对单个评论中表达的情绪进行正确分类的能力。我们的背景是相当具体的:数据是制造业采购经理对其公司的业务前景的看法,而没有对财务状况进行太多讨论。虽然有许多情绪分类模型可用,但许多是在考虑其他数据的情况下开发的,例如社交媒体帖子(Nielse,2011)。即使在经济和金融领域,大多数工作都集中在金融上。 1WhileISMcollectstheseresponsesthroughthesurvey,thistextisconfidentialandnotincorn-poratedintothepublishedindexes.AsampleofresponsesarepublishedinthemonthlyISMRe-portonBusiness(see). 相关语言(Araci,2019;Correaetal.,2021;Huangetal.,2022)。特定于制造的数据集缺乏结果促使我们对 各种NLP技术进行评估。一种常见的方法是计算情绪词典中单词的频率。经济学家最初使用心理学文献中的积极和消极词,但此后转向使用特定领域的词(例如Procedre,科雷亚等人。,2021),并使用简单的单词计数来衡量其他类型的语气,如不确定性(见Baer等人。,2016年和Getzow等人。,2019年)。虽然此方法是透明的,但它可能无法捕获否定,同义词,并且通常需要可能不可用的特定于上下文的字典。最近开发的技术采用深度学习方法来解释语言的细微差别。我们专注于BERT的变体(参见Devli等人。,2018),是ChatGPT等流行的大型语言模型的前身。这些模型是。预训练参数是通过将模型暴露于大型文本语料库(例如整个维基百科)并尝试预测缺失的单词或句子之间的关系来设置的。预训练的模型可以用于直接对情绪进行分类,或者它们可以在特定数据集上进一步训练(“精细调整”)。后一种方法试图两全其美:一种从大量训练数据中解析语言的坚实能力,以及来自微调数据的上下文特定细微差别。虽然深度学习得到了广泛的关注,但在我们的背景下,它是否应该胜过精心策划的字典,这一点是事先不清楚的。 比较这些不同方法在我们数据集中的手工编码评论样本上的准确性,我们发现深度学习确实对我们的数据有优势,部分原因是评论的简洁意味着许多评论与字典术语没有重叠。此外,我们发现将模型专门用于我们的数据是有价值的:对我们的数据进行微调的模型在保留样本上具有最高的情绪分类准确性。这些结果指出了使用预训练模型的优势,以及仔细地将它们专门用于手头的任务。我们希望这些结果有助于指导其他经济学家在NLP方法之间做出决定。 基于ISM数据中的自由形式文本响应的情绪度量汇总到指数中,这些指数紧密地反映了基于对分类调查的响应的扩散指数和由工业生产的制造部分衡量的总制造产出。我们进一步研究了采购经理表达的平均情绪与制造业产出经济之间的关系。我们的基线预测模型询问情绪是否可以帮助预测制造业产出,并包括一些ISM扩散指数,因此进行测试。 是指情绪指数是否具有ISM分类响应数据之外的其他信息。我们发现,大多数基于字典的文本变量无助于预测制造产出,除了精选的金融稳定专用字典。另一方面,来自深度学习模型的情绪变量可以预测未来的制造业产出。样本外预测练习表明,金融稳定字典和深度学习技术也显著降低了均方预测误差。总体而言 ,我们的结果表明,采购经理的调查回应包含有用的前瞻性信息,并且基于情绪的措施可以提高制造业产出预测的准确性。 上述练习依赖于手动标记的数据样本,既可以评估不同方法的准确性,又可以帮助微调一些基于深度学习的方法。然而,面板微数据允许不同的方法。由于公司进行了多个月的调查,因此我们可以将给定月份的文本(和其他)数据链接到下个月的公司级生产数据。通过将模型拟合到这些数据,我们可以使用公司级别的滞后信息来预测公司级别的生产。这种方法有两个优点。首先,与手动标记的数据相比,它为我们提供了更大的训练样本大小。其次,它将训练数据目标与总体预测目标非常精确地对齐。关于第二点,我们在手动标记数据以辨别评论是指示工业生产上升还是下降时,尽最大努力 。但是有很多模棱两可的情况,所以让数据说话有一些明显的优势,并看到什么文本实际上与未来(公司级别)的生产变化有关。我们发现,以这种方式进行微调与使用手动标签相比具有竞争力,并且在某些情况下更可取。 最后,我们在深度学习模型的可解释性方面取得了进展。众所周知,这些模型是不透明的,这是其非常高的参数计数和极其非线性的体系结构的结果。这可能使人们难以信任此类模型的输出,因为最初尚不清楚看似良好的预测是否基于坚实的基础。我们使用标准的机器学习可解释性方法-Shapley分解-对每个评论中每个单词的贡献进行评分。我们的结果指出了对我们的深度学习模型的合理解释。首先,每个单词的分数随着时间的推移大致是恒定的:单词不会显着改变其平均内涵(尽管底层的深度学习模型允许这样做)。其次,分数有肥尾:大多数单词的分数非常接近零(中性),只有相对少量的单词具有极端情绪 。例如,最积极的词包括。 “轻快”、“优秀”、“蓬勃发展”、“改善”和“高效”;最消极的词包括“不稳定”、“不足”、“脆弱”、“不一致”和“可疑”。接近中性的词对总体情绪的贡献很小,即使考虑到它们经常发生的事实。最后,我们发现变更在我们的综合情绪指数中,主要是由情绪得分最极端(积极或消极)的单词的频率变化来解释的,而绝大多数单词的作用不大。因此,虽然可能难以从头开始手动构建特定于域的字典,但有可能从深度学习模型中提取相当简单、可解释的字典。 我们的论文贡献了两个方面的文献。首先,我们对衡量情绪的NLP技术的比较增加了将NLP纳入经济和金融研究的越来越多的文献。自从Tetloc(2007)的开创性工作以来,许多研究都使用了基于字典的方法(Baer等人。,2016;哈桑等人。,2019;Yog等人。,2021年;牛皮等人。,2022年),并且针对特定环境的精化词典已被证明可以提高测量和预测的性能(Correa等人。,2021年;加德纳等人。,2022;夏普等人。,2023年)。机器学习技术也被用来选择单词列表(Maela和Moreira,2017;Soto,2021)。最近的论文结合了更多的复杂的机器学习方法来提取文本的时态和主题(Agelico等人。,2022年;汉利和霍伯格,2019年;汉森等人。,2018;卡拉马拉等人 。,2022年)。NLP的进步,特别是深度学习技术的使用,显著改善了情感分类(Hesto和Siha,2017;Araci,2019;Hag等人。,2022年;拜比,2023年;杰哈等人。,2024)。 其次,我们为预测工业生产的文献做出了贡献(D'Agostio和Schatz,2012;Lahiri和Moorossos,2013;Ardia等人。,2019;Cimadomo等人。,2022;安德鲁等人。,2017)。我们对情绪和工业试制之间关系的分析为非结构化文本数据在经济预测中的作用提供了新的见解(Marccci,2024)。通过比较各种NLP技术,我们能够确定哪些方法对情感分类最有效,并将其纳入工业生产的预测模型。 与我们最相似的论文是Shapiro等人。(2022),他们发现