您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国际清算银行]:CBLM:中央银行的语言模型(中)33份 - 发现报告

CBLM:中央银行的语言模型(中)33份

AI智能总结
查看更多
CBLM:中央银行的语言模型(中)33份

由Leonardo Gambacorta,Byeungchun Kwon,TaejinPark,Pietro Patelli,Sonya Zhu 撰写 货币与经济部门 2024年10月 JEL 分类:E58, C55, C63, G17 关键词:大型语言模型,通用人工智能,中央银行,货币政策分析 国际清算银行(BIS)工作报告由货币和经济领域的成员撰写。国际清算银行部门,以及不时由其他部门提供经济学家撰写,并由该行出版。论文涉及当前热门主题其性质为技术性。所表达的观点是他们自己的看法。作者的观点,不一定反映BIS的观点。 他的出版物可在BIS网站(www.bis.org)获取。 国际清算银行2024。版权所有。部分摘录仅供参考。版权所有,未经授权不得复制或翻译,但须注明出处。 1020-0959(印刷)国际标准连续出版物号1682-7678 (在线) CB-LMs:中央银行语言模型 +国际清算银行(BIS),* 欧洲经济政策研究中心(CEPR)莱奥纳尔多·甘巴科尔塔(Leonardo Gambacorta)+*, 昆 Byeungchun+, 太津园+, 皮埃特罗·帕泰利+,朱索尼娅+ 摘要 我们引入了央行语言模型(CB-LMs)——专门的重训练于央行演讲、政策文件和研究论文的全面语料库的编码器仅语言模型。我们表明,CB-LMs在预测央行习语中的掩码词方面优于其基础模型。一些CB-LMs不仅优于其基础模型,而且在从联邦公开市场委员会(FOMC)声明中分类货币政策立场方面也超越了最先进的生成大型语言模型(LLMs)。在更复杂的场景中,需要对与美国货币政策相关的广泛新闻进行情感分类时,我们发现最大的LLMs优于领域自适应的编码器仅模型。然而,部署此类大型LLMs在保密性、透明度、可复制性和成本效益方面给央行带来了重大挑战。 JEL 分类:E58, C55, C63, G17.关键词:大型语言模型、通用人工智能、中央银行、货币政策分析 1. 引言 沟通正日益成为央行管理公众预期的重要工具。利用语言模型的力量,越来越多的经济文献正在应用自然语言处理(NLP)技术来解读央行的沟通。词语、语调和肢体语言均被证明是央行管理公众预期的有效渠道。 尽管这些研究做出了有价值的贡献,但大多数用于经济文献中的语言模型都是在通用文本语料库上训练的,这本质上也限制了它们全面捕捉特定于中央银行沟通的复杂性和细微差别的能力。值得注意的是,Gorodnichenko等人(2023年)和Hansen与Kazinnik(2023年)在他们的分析中使用了BERT(Transformer双向编码器表示)和GPT(生成预训练的Transformer),这两种都是通用型语言模型。为了克服这一限制,最近的自然语言处理文献(Lee等人,2019年;Huang等人,2023年)建议在针对性和更全面的特定领域语料库上重新训练语言模型可以显著提高自然语言处理分析的性能。 为了解决货币经济学和中央银行研究中对特定领域NLP分析的需求,我们开发了被称为CB-LM(中央银行语言模型)的中央银行语言模型,这些模型是在一个大规模的中央银行语料库上专门训练的。在开发这些模型时,我们利用了包括BERT和RoBERTa(鲁棒优化BERT预训练方法)在内的突出编码器语言模型,并使用包括中央银行演讲和政策及研究论文的语料库对它们进行重新训练。 我们发现,CB-LMs在理解央行领域的特定语义、术语和语境细微差别方面表现出色。特别是,它们在两个关键领域优于其基础编码器模型:1)预测央行习语中的掩码单词;2)对官方货币政策决策声明中的立场进行分类。此外,我们还将CB-LMs与最先进的生成大型语言模型(LLMs)进行了比较。后者由于在广泛且多样化的数据集上进行了大量预训练,因此在央行数据库上的再训练需求较低。 本文的主要目标是开发和发展高性能的CB-LMs,这些CB-LMs有潜力在货币经济学和中央银行中的自然语言处理分析领域实现公平竞争。通过为研究人员和实践者提供访问特定领域语言模型的方式,我们的研究为更准确和见解丰富的货币政策及相关主题分析开辟了新的可能性。此外,在本文中,我们探讨了不同LLMs在中央银行背景下的适应能力,评估了它们在多种训练方法和各种下游任务场景中的性能。我们对这些LLMs在不同训练环境中的全面评估为中央银行家提供了更深入的见解,使他们能够根据任务和技术的具体要求,在选择适合的模型时做出更明智的决策。 本文结构如下。第二章提供文献综述,概述了货币经济学和金融领域的自然语言处理(NLP)研究现状。第三章描述了我们的方法,详细说明了数据收集过程以及在开发CB-LMs中涉及的技术步骤。第四章采用掩码词测试来评估基础模型和CB-LMs在识别中央银行经常使用的习语方面的性能。第五章展示了CB-LMs在分类货币政策情绪中的应用。第六章扩展性能分析至最先进的生成式大型语言模型。第七章引入一项更具挑战性的任务,以在LLMs之间建立更进一步的基准。第八章讨论了在中央银行环境中部署生成式LLMs时的关键考虑因素。最后一章总结。 2. 文献综述 通讯工具,包括发布官员会议记录/会议纪要和演讲,在过去二十年里被中央银行越来越多地使用。许多研究通过利用计算语言学的不同技术评估中央银行沟通的有效性。 传统方法通常涉及词袋技术,其中只关注词频。例如,Acosta 和 Meade(2015)以及 Ehrmann 和 Talmi(2020)在货币政策声明中计算情感嵌入词。通过使用情感 分析表明,他们能够评估文本的情感 tone 和主观方面,从而提供对政策立场的额外洞察。相比之下,Boukus 和 Rosenberg(2006)使用潜在语义分析来考虑语义分布,并从联邦公开市场委员会(FOMC)的会议记录中提取经济主题。他们证明,FOMC会议记录的发布会移动国债收益率,而具体的反应取决于所确定的具体主题。这种反应的异质性非常相关,因为它突出了各种经济主题对市场行为的不同影响,强调了在货币政策中细微沟通的重要性。 在文献中已经采用了更先进的文本分析方法来筛选相关信息。Hansen等人(2017年)使用了一种概率主题建模算法——潜在狄利克雷分配(LDA)(参见Blei等人,2003年)——从覆盖各种主题的时间比例来分解FOMC会议记录。他们发现,1994年之后的会议记录发布减少了FOMC委员会成员的讨论,这意味着中央银行沟通的透明度可以影响政策讨论的内部动态。 最近,一些研究开始将深度学习模型应用于货币经济学研究。Curti和Kazinnik(2023)将卷积神经网络(CNN)应用于美联储新闻发布会视频,这种方法特别适用于分析视觉提示和非言语交流,为对中央银行沟通的理解增添了另一个维度。Gorodnichenko等(2023)将BERT应用于美联储新闻发布会音频,同时关注阅读的语气以提取更微妙的信息。有趣的是,Curti和Kazinnik(2023)以及Gorodnichenko等(2023)都发现,金融市场对美联储主席的非言语沟通做出反应。1 我们的CB-LMs(中央银行语言模型)与现有模型的不同之处在于,它们专门针对大规模中央银行语料库进行设计和训练,从而捕捉特定的语义、术语和 在领域内的语境细微差别。在本文中,我们介绍了几个特定领域的语言模型,为更准确和有洞察力的货币政策和相关主题分析提供了新的可能性。 在类似的研究中,Aruoba和Drechsel(2023年)运用深度学习技术,在Hassan等人(2020年)的精神下开发了一种情感分析方法,在一个文档的10词窗口内捕捉围绕经济概念的情感。他们使用了一个积极和消极词汇的词典,并将其修改得更适合美联储文档的语言。每个积极或消极词汇都会影响该概念的情感得分,从而提供了对每个经济概念周围情感的细微理解。虽然这种方法在应用上有所不同,但它与我们的CB-LM(中央银行语言模型)一样,旨在捕捉中央银行和货币经济学领域的特定语义、术语和语境细微差别。 除了货币政策,还有大量迅速增长的文献采用文本分析方法来衡量各种经济变量,包括在文本文件中计算主题词的频率。例如,文本分析已被应用于衡量经济政策不确定性(Baker等,2016年;Husted等,2020年)、党派冲突(Azzimonti,2018年)、地缘政治风险(Caldara和Iacoviello,2022年)以及产品相似度(Hoberg和Phillips,2010年;Hoberg和Phillips,2016年)。与基于词频的方法相比,我们的CB-LMs的主要优势在于基于转换器的语言模型能够比简单的频率计数更好地捕捉文本的“上下文”。因此,CB-LMs足够灵活,可以轻松应用于除了货币政策立场之外的经济变量的测量,为经济分析提供了一种综合工具。 我们的研究与Pfeifer和Marohl(2023)的工作密切相关,该研究调查了参与央行沟通的经济主体(政府、金融中介、家庭、企业)及其周围的情绪。他们开发了一种针对情绪分类的微调语言模型,使用了一般用途的语言模型RoBERTa和一个手动标注的央行讲话语料库。我们的研究通过引入适用于特定领域的模型,为文献做出了贡献,这些模型在中央银行的下游NLP任务中实现了更好的性能。 3. 研究方法 在本节中,我们描述了开发CB-LMs(中央银行语言模型)所涉及的步骤。这些模型本质上是对基础语言模型进行精细调整的改编,旨在针对中央银行和货币政策的微妙领域进行定制。 CB-LMs的发展涉及两个基本阶段:领域适应和微调。在领域适应阶段,模型在一个广泛的文本语料库上进行无监督学习。这个过程赋予了模型对语言元素的坚实基础理解,包括语法、习语、语义和结构模式。通过这一阶段,模型对语言有了全面的理解。领域适应阶段之后,模型进行微调,通过在更集中、以任务为导向的数据集上进行监督学习,适应特定任务。这个过程优化了模型的参数,提高了其在中央银行情境下的文本分类和问答等特定任务中的性能。 图1展示了我们语言模型的领域自适应过程。我们首先通过BIS的中央银行中心,收集了一个包括由其编制的演讲和学术论文的中央银行语料库。2对于本论文的目的而言,我们的数据集包含了37,037篇研究论文(2.7千兆字节)和18,345篇演讲(0.34千兆字节)。然后我们对文本数据进行预处理,并从中生成三组编码标记:一组基于演讲文本,一组基于研究论文文本,以及一组包含演讲和论文文本的合并集。 在第三步,我们选择了在中央银行领域应用的底层语言模型。这些模型通常在如维基百科和BookCorpus等通用文本上训练。我们选择底层模型的标准有两个关键点。首先,这些模型应在自然语言处理(NLP)社区中得到广泛的认可和使用。其次,它们的计算需求,通常与模型大小相关,必须与我们的计算能力相匹配,特别是图形处理单元(GPU)基础设施。考虑到这些因素,我们选择了基础BERT模型(Devlin等,2019年)。 由谷歌开发,并基于Meta开发的RoBERTa基模型(刘等人,2019年)。我们定制选择了基础模型以适应中央银行领域。通过将这两个基础模型适配到这三个数据集中,我们最终获得了六个独特的中央银行语言模型。 为了提高模型对央行术语的双向理解,我们采用了掩码语言模型(Masked Language Modelling,MLM)。具体来说,我们在央行数据集中的句子中随机掩码一个标记,并重新训练BERT和RoBERTa来预测这些被掩码的标记。 为验证CB-LM在涉及中央银行的下游NLP任务中的有效性,我们对它们进行针对货币政策沟通的具体应用的微调,并与其原始基础模型的性能进行基准对比。 评估领域自适应:预测中央银行惯用语 在本节中,我们遵循NLP文献,采用标准的掩码词测试来评估CB-LMs的表现。该测试使用了一个手动编纂的数据集,包括 100个中央银行常用习语(见表1)。在中央银行领域的习语可能不会被对这一专门领域不太熟悉的语言模型立即理解。这些习语每个至少由三个词组成,其中中间的