彭博推出BloombergGPT,一款针对金融领域的大型生成式AI模型,旨在通过训练一个包含超7,000亿词例的大型语料库,增强金融领域的自然语言处理能力。此模型特别设计用于改进市场情绪分析、命名实体识别、新闻分类和问答等任务,并有望释放更多利用彭博终端海量数据的潜力,充分挖掘人工智能在金融领域的应用。
BloombergGPT的训练数据集“FINPILE”主要由英文金融信息构成,包括新闻、文件、新闻稿、网络爬取的金融文件以及从彭博档案库提取的社交媒体消息。此外,该模型还整合了公共数据集,使其总词例数达到约5000亿,其中彭博贡献的“FINPILE”数据占51.27%,质量较高。该模型在512个40GB A100 GPU上训练,最终形成一个500亿参数的模型。
在性能测试中,BloombergGPT在金融专业任务和通用NLP任务上均表现出色,尤其是在金融领域内的五项特定任务中排名第一。它在标准的、通用的NLP任务上也达到了甚至超越了平均水平,特别是在知识评估和阅读理解方面。此外,BloombergGPT在金融情绪分析、情感分析、知识评估、阅读理解和语言理解任务中的表现突出,显示出其在处理金融相关数据时的独特优势。
投资角度来看,BloombergGPT的推出预示着垂直场景人工智能的新范式,特别是针对高价值、高专业属性和数据量庞大的垂直场景,如金融、医疗、教育等领域。投资者应关注那些具有明确市场地位、掌握大量数据的行业龙头,如恒生电子、同花顺、中科软、顶点软件等。同时,应警惕技术落地不达预期、政策变化、竞争加剧以及疫情对经济的影响带来的风险。