中泰证券研究所专业|领先|深度|诚信 |证券研究报告| BloombergGPT -金融领域的500亿参数的语言模型 2023.4.2 分析师:闻学臣 执业证书编号:S0740519090007 近日,彭博发布一篇关于BloombergGPT开发情况的研究论文《BloombergGPT:ALargeLanguageModelforFinance》,文章详细介绍了这一全新的大规模生成式人工智能(AI)模型。该大语言模型(LLM)专门针对各类金融数据进行训练,以全方位支持金融领域的自然语言处理(NLP)任务。 该模型将帮助彭博改进现有的金融NLP任务,如市场情绪分析、命名实体识别、新闻分类和问题回答等。此外,BloombergGPT还将释放更多新机遇,调动彭博终端上的海量数据,将人工智能蕴藏的全部潜力带到金融领域。 图表:《BloombergGPT:ALargeLanguageModelforFinance》 资料来源:《BloombergGPT:ALargeLanguageModelforFinance》,中泰证券研究所 Dataset Docs1e4 C/D Chars1e8 C/T Toks1e8 T% FinPile 175,886 1,017 17,883 4.92 3,635 51.27% Web 158,250 933 14,768 4.96 2,978 42.01% News 10,040 1,665 1,672 4.44 376 5.31% Filings 3,335 2,340 780 5.39 145 2.04% Press 1,265 3,443 435 5.06 86 1.21% Bloomberg 2,996 758 227 4.6 49 0.70% PUBLIC 50,744 3,314 16,818 4.87 3,454 48.73% C4 34,832 2,206 7,683 5.56 1,381 19.48% Pile-CC 5,255 4,401 2,312 5.42 427 6.02% GitHub 1,428 5,364 766 3.38 227 3.20% Books3 19 552,398 1,064 4.97 214 3.02% PubMedCentral 294 32,181 947 4.51 210 2.96% ArXiv 124 47,819 591 3.56 166 2.35% OpenWebText2 1,684 3,850 648 5.07 128 1.80% FreeLaw 349 15,381 537 4.99 108 1.52% StackExchange 1,538 2,201 339 4.17 81 1.15% DMMathematics 100 8,193 82 1.92 43 0.60% Wikipedia(en) 590 2,988 176 4.65 38 0.53% USPTOBackgrounds 517 4,339 224 6.18 36 0.51% PubMedAbstracts 1,527 1,333 204 5.77 35 0.50% OpenSubtitles 38 31,055 119 4.9 24 0.34% Gutenberg(PG-19) 3 399,351 112 4.89 23 0.32% UbuntuIRC 1 539,222 56 3.16 18 0.25% EuroParl 7 65,053 45 2.93 15 0.21% YouTubeSubtitles 17 19,831 33 2.54 13 0.19% BookCorpus2 2 370,384 65 5.36 12 0.17% HackerNews 82 5,009 41 4.87 8 0.12% PhilPapers 3 74,827 23 4.21 6 0.08% NIHExPorter 92 2,165 20 6.65 3 0.04% EnronEmails 24 1,882 5 3.9 1 0.02% Wikipedia(7/1/22) 2,218 3,271 726 3.06 237 3.35% TOTAL 226,631 1,531 34,701 5 7,089 100% 为训练BloombergGPT,彭博构建了一个全面的数据集“FINPILE”,主要由英文金融信息组成,包括新闻、文件、新闻稿、网络爬取的金融文件,以及从彭博档案库中提取的社交媒体消息。 同时彭博将FINPILE与公共数据集进行叠加,成为了包含超7,000亿词例(tokens)的大型训练语料库,其中彭博“FINPILE”贡献了3635亿词例(tokens),占比51.27%,且该部分的数据质量更高。 图表为完整的训练集的分类。(来源: 《BloombergGPT:ALargeLanguage ModelforFinance》) 彭博的研究团队利用该语料库的一部分内容,基于PyTorch训练了纯解码器(decoder-only)因果语言模型BloombergGPT。 FINPILE已经是最大的领域特定数据集,由于研究团队不想FINPILE在总数据集的占比低于50%,结合Chinchillascalinglaws(Hoffmannetal.,2022),在512个40GBA100GPU的基础上,最终建立了500亿的参数模型。 图表:Kaplanetal.(2020)andChinchillascalinglawswithpriorlargelanguagemodelandBloombergGPTparameteranddatasizes.WeadoptthestylefromHoffmannetal.(2022). 团队对训练出的模型进行了基准测试,其中金融领域的NLP任务采用了一套彭博的自有基准,各类通用NLP任务则采用市面上流 行的基准(比如BIG-benchHard、KnowledgeAssessments、ReadingComprehension以及LinguisticTasks)。 BloombergGPT模型在两大类NLP任务中的表现亮眼,在金融专业任务的表现排第一,远超类似规模的开放模型;同时在一般任务的表现也达到甚至超过了平均水平。 图表:BloombergGPT在两大类NLP任务中的表现 文中指出,让NLP模型处理分析金融领域相关的任务时会面临挑战。例如X公司裁员一万人,这样的标题在一般意义上描绘了负面情绪,但有时也会被认为是对公司的金融情绪的积极表现,因为可能会使得股票价格或投资者信心增加。 从具体的测试来看,BloombergGPT在五项任务中都表现十分优秀,其中四项排名第一。 图表:Resultsonfinancialdomaintasks 对于彭博内部任务,研究团队考虑针对特定方面的情感分析。从具体的测试来看,BloombergGPT依旧表现出在金融专业任务中的优越性,五项任务均排名第一且远远超过所有其他模型。 图表:Resultsoninternalaspect-specificsentimentanalysisdatasets 彭博引入BIG-benchHard评测基准来评估BloombergGPT在标准的、通用的NLP任务上的表现。从具体的测试来看,BloombergGPT在类似规模的模型中是表现最好的,且更接近于BLOOM176B。由此可见,金融数据集并不会影响BloombergGPT在通用NLP任务中的表现。在KnowledgeAssessment中同样得到了验证。 图表:BIG-benchhardresultsusingstandard3-shotprompting图表:Results(5-shot)ontheMMLU(Hendrycksetal.,2021)benchmark 在ReadingComprehension中,BloombergGPT紧跟GPT-3之后。除OpenBookQA外,BloombergGPT相比于GPT-NeoX、 OPT66B整体表现要好,甚至比BLOOM176B的表现更为优秀,展现出在阅读理解方面的优势。 在LinguisticTasks中,其结果与ReadingComprehension相似。在众多模型中,BloombergGPT理解语言的能力是可观的。 图表:ReadingComprehensionResults(1-shot)图表:ResultsontheLinguisticScenarios(1-shot) BloombergGPT开启了垂直场景人工智能新的范式探索,其任务表现结果也证明了垂类大模型的价值,未来产业将会是通用基础大模型与垂直模型并存的格局形态,从投资方向上看,建议可以沿着两个维度寻找机会: 一是寻找如金融业一样具有高价值、高专业属性、数据量庞大的垂直场景,建议重点关注金融(恒生电子、同花顺、中科软、顶点软件、宇信科技、京北方、长亮科技、天阳科技等)、医疗(创业慧康、嘉和美康、久远银海、卫宁健康等)、教育(科大讯飞等)等核心场景; 二是寻找市场地位明确、掌握大量数据的行业龙头,建议重点关注恒生电子、同花顺、广联达、明源云、中科软、金蝶国际、用友网络、泛微网络、致远互联等。 风险提示:技术落地不达预期,政策变化,格局恶化,疫情再次大规模传播。 重要声明 中泰证券股份有限公司(以下简称“本公司”)具有中国证券监督管理委员会许可的证券投资咨询业务资格。 本报告仅供本公司的客户使用。本公司不会因接收人收到本报告而视其为客户。 本报告基于本公司及其研究人员认为可信的公开资料或实地调研资料,反映了作者的研究观点,力求独立、客观和公正,结论不受任何第三方的授意或影响。本公司力求但不保证这些信息的准确性和完整性,且本报告中的资料、意见、预测均反映报告初次公开发布时的判断,可能会随时调整。本公司对本报告所含信息可在不发出通知的情形下做出修改,投资者应当自行关注相应的更新或修改。本报告所载的资料、工具、意见、信息及推测只提供给客户作参考之用,不构成任何投资、法律、会计或税务的最终操作建议,本公司不就报告中的内容对最终操作建议做出任何担保。本报告中所指的投资及服务可能不适合个别客户,不构成客户私人咨询建议。 市场有风险,投资需谨慎。在任何情况下,本公司不对任何人因使用本报告中的任何内容所引致的任何损失负任何责任。 投资者应注意,在法律允许的情况下,本公司及其本公司的关联机构可能会持有报告中涉及的公司所发行的证券并进行交易,并可能为这些公司正在提供或争取提供投资银行、财务顾问和金融产品等各种金融服务。本公司及其本公司的关联机构或个人可能在本报告公开发布之前已经使用或了解其中的信息。 本报告版权归“中泰证券股份有限公司”所有。事先未经本公司书面授权,任何机构和个人,不得对本报告进行任何形式的翻版、发布、复制、转载、刊登、篡改,且不得对本报告进行有悖原意的删节或修改。