AI+金融的四个层次:传统机器学习、大模型+微调、大模型预训练、智能投研。1)传统机器学习问答:2017-2021年,金融科技快速发展,传统机器学习逐步运用于金融领域,包括自动化呼叫中心功能、安全领域、优化面向客户的聊天机器人的文书工作,以及改进员工培训。2)通用大模型+finetune:各大模型厂商紧跟Openai布局基础大模型,首先通过预训练形成基础模型,然后针对特定领域做微调。原则上来说只要有细分领域数据,通用大模型就可以针对垂直领域做优化,赋能各行各业。3)垂类大模型预训练:尽管大模型在通用行业中应用良好,但针对特定领域的垂类大模型仍有其存在意义和不可替代性。2023年3月30日,BloombergGPT正式官宣,一方面构建具备3630亿个标签、迄今为止最大的特定领域训练数据集,另一方面训练BLOOM风格、拥有500亿参数的金融领域的大型语言模型(LLM)。4)智能投研:未来随着AI技术的进步,一级投研业务降本增效需求不断加强,智能投研将成为重要方向,为行业带来更加广阔的发展前景。 垂类领域数据预训练+大模型效果优于通用大模型+微调。除了基础大模型,许多大模型厂商都致力于推出各类行业大模型。实际应用并不一定需要大模型具有非常全面的能力,而更需要对行业知识的理解和对行业需求的适配,垂类领域预训练模型可以学习到特定领域的术语、上下文信息和任务模式,提高对该领域的语义理解和生成能力,效果上优于通用大模型+微调。 国外厂商金融垂类领域大模型纷纷问世。1)彭博社构建具备3630亿个标签、迄今为止最大的特定领域训练数据集,训练出BLOOM风格、拥有500亿参数的金融领域的大型语言模型BloombergGPT, 在金融专用任务和通用任务上表现出色 。 2)stratosphere.io发布Finchat,可为投资者提供750多家公司和100多家超级投资学家的书籍。 AI赋能,相关公司智能投研加速落地。1)金证股份:深耕金融科技多年,研发技术平台生态链完整,在首席人工智能官詹毅的带队下,AI能力快速发展,子公司丽海弘金(智能投资)和优品科技(智能投顾)领衔智能投研,企业级RPA软件金智维等AI相关产品构筑完整生态链。2)同花顺:AI能力及智能投顾投入较高,在AI开放平台的底座支撑下,基础版本的智能投顾“i问财”和进阶智能投资助理陆续落地,解析PDF、自动写研报等子产品模块预计于6月初上线。3)恒生电子:金融IT供应商龙头企业,子公司恒生聚源积累丰富金融数据及资讯,高研发投入下金融科技实力显著攀升,为首批文心一言生态合作伙伴,申万宏源证券联合打造“智能投研一体化平台”。4)达观数据:作为提供各类场景文本机器人的AI企业,公司研发垂直领域模型“曹植”,打造智能投研知识图谱中台,智能投研机器人在关键投研信息抽取和热点词分析上表现出色。 AI-ALPHA与市场BETA形成共振。1)ALPHA:金融IT公司AI产品持续落地,结合数据端布局、研发投入和变现能力,同花顺、恒生电子、金证股份、达观数据等公司,具备海量、丰富、高质的金融领域垂类数据,并致力AI技术研发+相应场景产品落地的领军企业,在大模型时代竞争力优势将进一步强化。2)BETA:5月以来,国内算力层激励政策频出,以北上深为代表,全国各地加快制定人工智能规划;国内以光模块、AI服务器等为代表的核心算力环节,已在订单、产能规划上展现出高景气,落地放量可期;在美股算力巨头业绩与落地持续超预期的催化下,算力需求兑现的预期正持续加强,中美共振初步显现,市场BETA增长强劲。 推荐关注:结合数据端布局、研发投入和变现能力,推荐同花顺、金证股份、恒生电子、东方财富、财富趋势、指南针。 风险提示:金融监管风险;AI产品线推进不及预期。 一、AI+金融的四个层次:传统机器学习、通用大模型+微调、垂类大模型预训练、智能投研 四阶段:传统机器学习、大模型+finetune、大模型预训练、智能投研。智能投研是利用计算机技术和人工智能算法,对金融市场进行分析和预测的一种新型研究方法。传统的投研方法主要依靠人工分析和预测,具有时间成本高、人力物力投入大、信息不对称等问题。随着技术进步,传统投研也逐步与机器学习、大模型微调、大模型预训练结合,向智能投研方向迈进。 传统机器学习问答:2021年以前,传统机器学习逐步运用于在金融科技领域,包括自动化呼叫中心功能、安全领域、优化面向客户的聊天机器人的文书工作,以及改进员工培训。 大模型+finetune:随着Openai的技术进展,各大模型厂商针对性开始布局基础大模型,所有大模型的训练都分为两步:首先通过预训练形成基础模型,然后针对特定领域做微调。原则上来说只要金融领域细分领域数据,通用大模型就可以针对垂直领域做优化,赋能金融领域 大模型预训练:尽管大模型在通用行业中应用良好,但针对特定领域的大模型仍有其存在意义和不可替代性。为应对金融专业名词解读、市场情绪理解等复杂问题,同样具备少样本学习、文本生成、对话能力的金融领域专用LLM应运而生,以完成情感分析、命名实体识别、新闻分类以及问答等金融NLP问题。2023年3月30日,BloombergGPT正式官宣,一方面构建具备3630亿个标签、迄今为止最大的特定领域训练数据集,另一方面训练BLOOM风格、拥有500亿参数的金融领域的大型语言模型(LLM)。 智能投研:未来随着AI技术的进步,具备细分领域高质量数据的公司,在大模型应用上具备先发优势,将拉动投研业务进一步向着智能投研的方向发展。未来智能投研将不断完善数据和算法模型、加强对人工智能算法的监管和规范,这将为金融行业带来新的商业模式和发展机遇。同时,智能投研也将推动金融行业的数字化转型和创新,为行业带来更加广阔的发展前景。 二、垂类领域效果:大模型+预训练>大模型+微调 行业预训练大模型:比微调通用性更优。除了基础大模型,许多大模型厂商都致力于推出各类行业大模型。百度文心大模型与各行业企业联手,在通用大模型的基础上打造能源、金融、航天、制造、传媒等具体行业大模型。华为将大模型体系分为了基础大模型L0、行业大模型L1、细分场景模型L2三层。科大讯飞也提出“1+N”战略,“1”是通用大模型算法研发及高效训练底座平台,“N”是教育、医疗、人机交互、办公等行业大模型。实际应用并不一定需要大模型具有非常全面的能力,而更需要对行业知识的理解和对行业需求的适配,在具体行业上,行业大模型的泛化等能力往往要优于基础大模型+微调。 大模型+预训练:预训练是指在大规模无标注数据上进行的模型训练,使得模型能够学习到语言的普遍特征和语义知识。预训练模型可以通过遮蔽任务、下一句预测任务等方式进行,例如BERT、GPT等模型。预训练的优势在于能够从大规模数据中学习语言的上下文信息,提高模型的语义理解和生成能力。垂类领域预训练使用特定领域的数据集进行模型训练,使得模型能够更好地理解和处理该领域的文本。垂类领域预训练模型可以学习到特定领域的术语、上下文信息和任务模式,提高对该领域的语义理解和生成能力。 图表1:预训练模型架构差异 大模型+微调:在用场景数据深度微调模型时,需要丰富的行业经验Knowhow进行评价和指导。在通过场景数据对大模型进行微调后,前期得到的模型输出可能还并不够完美,此时就需要有行业经验的专家对模型的输出进行评价,给出修改意见,再重新结合场景数据进行深度微调。比如对工业场景进行改造,可能涉及到模型具体需要和工厂内的哪些设备进行交互,还要考虑具体的作业流程。 图表2:BERT的整体预训练和微调程序 垂类领域数据预训练+大模型效果优于通用大模型+微调。因为具体到实际应用上,并不一定需要大模型具有非常全面的能力,而更需要对行业知识的理解和对行业需求的适配,在行业里的具体场景上,行业大模型往往比直接用基础大模型去微调具有更好的泛化能力。因此基于基础大模型和行业数据预训练大模型,一方面可以更精准匹配行业需求,一方面也能降低成本。 1)针对特定领域的语义理解:专业垂类领域预训练利用该领域的相关数据进行训练,使得模型对特定领域的语义理解更为准确。模型能够学习到该领域的术语、上下文和特定任务的语言模式,从而提高针对该领域的处理效果。通用大模型缺乏对特定领域的深入了解,无法准确捕捉特定领域的语义信息。 2)垂类领域知识的迁移能力:专业垂类领域预训练模型具有良好的领域知识迁移能力。 在预训练阶段,模型通过学习大规模的无标注数据,掌握了通用的语言模式和语义关系。 这些通用的语言知识能够帮助模型更好地理解专业领域的文本,并迁移应用到特定领域的任务中,通用大模型特定领域上的表现不如专业垂类领域预训练大模型。 3)垂类领域预训练和微调的衔接:大模型+专业垂类领域预训练方法可以通过在特定领域的数据上进行微调,进一步提升模型的性能。微调是指在预训练模型的基础上,使用有标签的领域数据进行有监督的训练。专业垂类领域预训练为微调提供了更好的初始状态,使得模型在领域数据上更容易收敛和优化。微调过程中,模型能够更快速地适应特定领域的数据分布和任务要求,提高模型的泛化能力。 百度文心大模型与各行业企业联手,在通用大模型的基础上学习行业特色数据与知识,建设行业AI基础设施。目前包括能源、金融、航天、制造、传媒等行业。如国家电网与百度联合发布知识增强的电力行业大模型,建设更适配电力行业场景的AI基础设施,降低数据标注成本,提升细分场景模型效果;人民网与百度在传媒行业、大数据和AI算法上结合,引入人民网舆情数据中心积淀的行业知识,顺应内容与技术发展,联合研发知识增强的传媒行业大模型,打造全媒体时代内容科技创新引擎,加速传媒行业的智能化升级等。 图表3:百度文心行业大模型 4月8日,人工智能大模型技术高峰论坛上,华为云人工智能首席科学家田奇表示AI for Industries是人工智能新的爆发点,华为将大模型划分为3个层级,分别为基础大模型L0、行业大模型L1、细分场景模型L2。将基础大模型L0与行业数据结合训练得到行业大模型L1,再将行业大模型L1应用于下游细分场景,进行微调和部署,得到细分场景模型L2。华为云于2021年4月发布三个基础大模型,包括NLP大模型、CV大模型和科学计算大模型,之后又陆续发布了各种行业大模型包括气象大模型、药物分子大模型、矿山大模型、海浪预测大模型等。 图表4:华为云盘古大模型 三、垂类领域预训练大模型具有不可替代性 行业数据预训练大模型有其不可替代性,金融LLM应运而生。随着GPT大模型的推出,大模型以少量学习、文本生成、对话系统的特点在通用行业中得以应用。金融NLP任务主要聚焦情感分析、命名实体识别、新闻分类、问题回答等,虽然与一般NLP基准任务相似,但是由于金融专业术语众多、行业复杂性高,通用NLP模型会出现无法理解财经新闻背后的市场“情绪”等问题,因此专用于金融领域的LLM具备独特价值和不可替代性。 基于海量金融数据积累,彭博社构建最大特定领域数据集和BloombergGPT。彭博社作为金融数据公司,在从业40年间收集整理大量金融语言文件,具备海量、广泛、高质、来源可靠的金融数据积累。基于海量的特定领域数据优势,2023年3月30日,彭博社构建具备3630亿个标签的金融领域数据集,是迄今为止最大的特定领域数据集; 并发布专门针对金融领域打造的大型语言模型(LLM)BloombergGPT,该模型根据Hoffmann等人(2022)和Le Scao等人(2022)的指导方针设计,沿袭BLOOM风格,拥有500亿参数。 图表5:BloombergGPT训练层数、参数汇总 数据来源可靠,涵盖特定领域文本和通用文本。彭博社的数据集优势在于,不通过传统网络爬取获得数据,彭博社的数据集数据来源可靠。Bloomberg构建FINPILE,涵盖新闻、文件、新闻稿、网络抓取的金融文件以及提取到的社交媒体消息,其中51.27%的数据来自公司(特定领域的文本),包括彭博从金融相关信息的网站获取的信息、与金融界相关的有信誉的新闻来