arXiv:2303.17564v1[cs。LG)2023年3月30日 为金融BloombergGPT:一个大的语言模型 吴诗杰1,∗Ozan我˙rsoy1,∗陆,史蒂文1,∗,瓦迪姆Dabravolski1马克Dredze1,2SebastianGehrmann1,PrabhanjanKambadur1大卫·罗森博格1基甸,曼1 1彭博社、美国纽约 2计算机科学,约翰霍普金斯大学,巴尔的摩,马里兰州美国 摘要 NLP在金融技术领域的使用广泛而复杂,其应用范围从情感分析和命名实体识别到问答。大型语言模型(LLM )已被证明对各种任务有效;然而,文献中没有专门针对金融领域的法学硕士报道。在这项工作中,我们提出了BloombergGPT,一个500亿参数的语言模型,在广泛的财务数据上训练。我们基于彭博广泛的数据源构建了一个3630亿个代币数据集,这可能是迄今为止最大的特定领域数据集,并增加了来自通用数据集的3450亿个代币。我们验证BloombergGPT标准LLM基准,开放财务基准和一套最准确地反映我们预期用途的内部基准。我们的混合数据集训练导致一个模型在财务任务上显着优于现有模型,而不会牺牲一般LLM基准的性能。此外,我们还解释了我们的建模选择、训练过程和评估方法。下一步,我们计划发布培训日志(编年史),详细说明我们的培训经验。BloombergGPT. 内容 1介绍 3 1.1 BloombergGPT ................................ 3 1.2更广泛的贡献.. 4 2数据集5 2.1金融数据集(363B代币–占训练的54.2%).7 2.1.1Web(298B代币–42.01%的培训)...7 2.1.2新闻(38B代币–培训的5.31%)..7 2.1.3申请(14B代币–培训的2.04%)...7 2.1.4按(9B代币–培训的1.21%)..8 2.1.5彭博社(5B代币–0.70%的培训)..8 2.2公共数据集(345B代币–占训练的48.73%)..9 2.2.1桩(184B代币–训练的25.9%)..9 2.2.2C4(138B代币–19.48%的训练)..9 2.2.3维基百科(24B代币–3.35%的培训)..9 2.3标记化.9 ∗。Co-first作者。 311 3.1 11 3.2 12 3.3 13 3.4 14 415516 5.1 18 5.2 18 5.3 195.3.1 外部金融任务20 5.3.2 内部的任务:情绪分析22 5.3.3 探索性任务:尼珥23 5.4 26 5.5 26 5.6 28 5.7 29 5.8 30 631732837 8.1 37 8.2 38 938一个架构 60 A.0 60 A.1 60 A.2 61 A.3 62 A.4 62 A.5 63 B细节外部资金的任务64 1.介绍 3年2020年发布的GPT-2020(Brown等人,2020年)证明了训练非常大的自回归语言模型(LLM )的强大优势。GPT-3有1750亿个参数,比之前的GPT-2模型增加了一百倍,并且在现在流行的各种LLM任务中表现出色,包括阅读理解、开放式问答和代码生成。这种性能已在其他几种模型中复制(乔杜里等人,2022年;斯考等人,2022;张等人,2022a)。此外,有证据表明,大型模型表现出紧急行为 ;生长使他们能够获得较小模型中不存在的能力(Wei等人,2022a)。紧急行为的一个显着例子是通过少数镜头提示执行任务的能力,其中模型可以从几个示例中学习任务。随着语言模型大小的增加,这种能力的提高远高于随机性。从广义上讲,少数镜头提示极大地扩展了模型支持的任务范围,并降低了寻求新语言任务自动化的用户的进入门槛。 在GPT-3之后,模型的规模增长到2800亿(Gopher,Rae等人,2021年)、540亿只(PaLM,乔杜里等人,2022年)和1万亿个参数(威震天、科蒂坎蒂等人,2022年)。工作还探讨了实现高性能法学硕士的其他重要方面,例如不同的训练目标(Tay等人,2022b)、多语言模型(Scao等人,2022年)、更高效和更小的模型(Black等人,2022年),以及查找数据和参数高效的训练规模(Hoffmann等人,2022年)。 这些努力几乎完全集中在一般的LLM,在涵盖广泛主题和领域的数据集上进行培训。虽然这些数据集包括一些专业领域的数据集(例如,代码(Chen等人,2021a)或生物医学文章Gao等人(2021)),但重点是构建具有广泛能力的LLM。最近仅使用特定领域数据训练模型的努力已经产生了模型,这些模型虽然要小得多,但在这些领域的任务上击败了通用法学硕士,例如科学泰勒等人(2022)和医学博尔顿等人(2023 );罗等人(2022);雷曼等人(2023)。这些发现激励了专注于特定领域的模型的进一步发展。 金融科技(FinTech)是一个庞大且不断增长的领域,NLP技术的作用越来越重要Xingetal.(2018);费舍尔等人(2016);Dredze等人(2016)。财务NLP任务Shah等人(2022)包括情感分析Araci(2019)、命名实体识别SalinasAlvarado等人(2015)、新闻分类Sinha和Khandait(2020 )以及问答Chen等人(2021b,2022)。虽然任务范围与一般NLP基准测试中的任务范围相似,但金融领域的复杂性和术语保证了特定领域的系统。由于所有原因,生成LLM通常具有吸引力-少数镜头学习,文本生成,会话系统等。–拥有专注于金融领域的法学硕士将是有价值的。虽然有针对金融领域Araci(2019)调整的屏蔽语言模型,但没有针对该领域的任务调整或评估LLM。 1.1BloombergGPT 我们训练BloombergGPT,一个500亿参数的语言模型,支持金融行业内的各种任务。我们没有构建通用LLM,或者专门基于特定领域数据的小型LLM,而是采用混合方法。常规 模型涵盖许多领域,能够在各种任务中执行高水平的操作,并避免在训练期间进行专业化。然而,现有特定领域模型的结果表明,一般模型无法取代它们。在彭博,我们支持非常庞大和多样化的任务集,由通用模型很好地服务,但我们绝大多数应用程序都在金融领域,由特定模型更好地服务。出于这个原因,我们着手建立一个模型,在财务基准上实现一流的结果,同时在通用LLM基准上保持竞争性能。 我们通过构建迄今为止最大的特定领域数据集来实现这一目标,并利用彭博现有的数据创建、收集和管理资源。由于彭博主要是一家金融数据公司,我们的数据分析师在四十年的时间里收集和策划了金融语言文档 。我们拥有涵盖一系列主题的大量财务数据档案,并仔细跟踪数据源和使用权限。我们将这些数据添加到公共数据集中,以创建一个包含超过7000亿个代币的大型训练语料库。使用该训练语料库的一部分,我们训练了一个BLOOM风格的500亿参数模型,该模型是根据Hoffmann等人(2022)和LeScao等人(2022)的指南设计的。我们根据标准LLM基准,开放财务基准和一套最准确地反映我们预期用例的彭博内部基准来验证模型。我们的结果表明,我们的混合训练方法导致一个模型在域内财务任务上远远优于现有模型,同时在一般NLP基准上处于同等或更好的水平。 1.2更大的贡献 除了为财务数据构建法学硕士之外,我们的目标是为更广泛的研究界做出贡献。具体而言,我们在本文中记录的经验提供了证据,进一步发展了社区对文献中几个开放性问题的理解。 特定领域的llm。少数现有的特定领域的LLM专门针对特定领域的数据源进行培训(Luo等人,2022;博尔顿等人,2023年;Taylor等人,2022年),或者将非常大的通用模型适应特定领域的任务(Singhal等人,2022年;Lewkowycz等人,2022年)。到目前为止,我们的替代方法-在特定领域和一般数据源上培训LLM -尚未得到研究。生成的模型在特定于域的任务上表现非常好,但在通用基准测试上也保持了强大的性能。 训练数据。几乎所有语言模型在很大程度上都依赖于网络抓取的数据,例如C4(Raffel等人,2020年 )和ThePile(Gao等人,2021年)(包括OpenWebText2)。在使用之前,可以通过各种方式清理或子集这些数据Touvron等人(2023);雷等人(2020);曹等人(2022);Jernite等人(2022),但数据重复问题Carlini等人(2020)和有毒语言仍然存在Welbl等人(2021)。我们的训练数据对于LLM培训来说是不寻常的,因为它包括来自可靠来源的大量策划和准备的数据。 评估。法学硕士评估仍然是一个具有挑战性和不断发展的问题格尔曼等人(2022);Goyal等人(2022年) ,新的基准试图使评估标准化 模型(梁等人,2022年;斯里瓦斯塔瓦等人,2022年)。但是,对于特定于域的任务,评估与实际用例之间仍然存在不匹配。评估建立在现有数据集的基础上,不一定基于模型在实践中的使用方式。我们提供了两个公共金融NLP基准的结果(Shah等人,2022;Chen等人,2021b)以及一系列彭博内部任务,这些任务与我们的预期用例更加一致,并直接评估我们的模型执行感兴趣任务的能力。 模型的尺寸。早期的LLM对200-4000亿的语料库进行了一次训练(Brown等人,2020年),Hoffmann等人(2022年)假设模型训练不足,而是专注于训练具有更多数据的较小模型,Touvron等人(2023年)最近提出了这一策略。我们选择了一个由Hoffmann等人(2022)激励的模型大小,并从我们超过7000亿个 代币的语料库中的5690亿个代币上训练了一个500亿个参数模型,以生成一个与更大模型竞争的模型。 分词器。组装训练数据后,标记化的关键步骤将文本转换为适合语言模型的格式。这一步的重要性经常被忽视Mielke等人(2021),许多较旧的LLM使用相同的分词器和词汇,这意味着我们几乎没有证据支持其他分词器。我们采用不同的方法,使用Unigram模型而不是贪婪的基于合并的子词分词器, 因为它节省了概率,允许在推理时进行更智能的分词化(Kudo,2018)。 模型建立的挑战。GPT-3和后续模型是大型团队的工作,需要大量的计算。重现这些结果的初始工作,例如OPTZhang等人(2022a),与原始模型的性能不匹配。随着每个后续模型的发布,社区的理解、经验和软件工具都会增加。在开发中BloombergGPT,我们受益于作为BLOOM工作的一部分开发的现 有代码Scao等人(2022),表明中等规模的团队可以在特定领域的数据上生成竞争模型。我们描述我们的经验培训BloombergGPT详细支持未来的培训工作并解决上述每个主题。 2.数据集 训练BloombergGPT,我们构造”FinPile“,这是一个综合数据集,由一系列英文财务文件组成,包括新闻、文件、新闻稿、网络抓取的财务文件和从彭博档案中提取的社交媒体。这些文件是在过去二十年中通过我们的业务流程获得的。我们增强FinPile公共数据广泛用于培训LLM。结果是一个训练语料库,大约一半是特定于领域的文本,一半是通用文本。有关完整训练集的细分,请参见表1。为了提高数据质量,我们对每个数据集进行重复数据删除(ThePile,C4,维基百科,FinPile)根据Lee等人(2022a);作为副作用,表1中报告的统计数据可能与其他论文中报告的统计数据不同。 数据集 文档 1e4 1e8 1e8 FinPile 175,886 1,017 17,883 4.92 3,635 51.27% 网络 158,250 933 14,768 4.96 2,978 42.01% 新闻 10,040 1,665 1,672 4.44 376 5.31% 申请 3,335 2,340 780 5.39 145 2.04% 新