行业研究公司研究宏观策略财报招股书会议纪要稳定币低空经济 DeepSeek AIGC 智能驾驶大模型

加大重视金融AI

信息技术2023-06-16刘高畅、杨然国盛证券从***

AI智能总结

研报主要关注金融AI在AI+金融的应用，并对AI+金融的四个层次进行了分析。其中，传统机器学习在金融领域的应用最为广泛，包括自动化呼叫中心功能、安全领域、优化面向客户的聊天机器人的文书工作，以及改进员工培训。通用大模型+finetune是各大模型厂商的趋势，通过预训练形成基础模型，然后针对特定领域做微调。垂类大模型预训练则更加适合特定领域的垂直应用，如BloombergGPT构建了具备3630亿个标签、迄今为止最大的特定领域训练数据集，训练出BLOOM风格、拥有500亿参数的金融领域的大型语言模型。智能投研是未来AI技术的发展方向，可以降低一级投研业务的成本，提高效率。国外厂商也在金融垂类领域大模型方面有所突破，如彭博社构建了具备3630亿个标签、迄今为止最大的特定领域训练数据集，训练出BLOOM风格、拥有500亿参数的金融领域的大型语言模型。国内金融IT公司也在AI产品持续落地，如同花顺、恒生电子、金证股份、达观数据等公司，具备海量、丰富、高质的金融领域垂类数据，并致力于AI技术研发+相应场景产品落地。此外，算力层激励政策频出，中美算力共振初步显现，有望推动算力需求的兑现。推荐关注同花顺、金证股份、恒生电子、东方财富、财富趋势、指南针等公司。

AI+金融的四个层次：传统机器学习、大模型+微调、大模型预训练、智能投研。1）传统机器学习问答：2017-2021年，金融科技快速发展，传统机器学习逐步运用于金融领域，包括自动化呼叫中心功能、安全领域、优化面向客户的聊天机器人的文书工作，以及改进员工培训。2）通用大模型+finetune：各大模型厂商紧跟Openai布局基础大模型，首先通过预训练形成基础模型，然后针对特定领域做微调。原则上来说只要有细分领域数据，通用大模型就可以针对垂直领域做优化，赋能各行各业。3）垂类大模型预训练：尽管大模型在通用行业中应用良好，但针对特定领域的垂类大模型仍有其存在意义和不可替代性。2023年3月30日，BloombergGPT正式官宣，一方面构建具备3630亿个标签、迄今为止最大的特定领域训练数据集，另一方面训练BLOOM风格、拥有500亿参数的金融领域的大型语言模型（LLM）。4）智能投研：未来随着AI技术的进步，一级投研业务降本增效需求不断加强，智能投研将成为重要方向，为行业带来更加广阔的发展前景。垂类领域数据预训练+大模型效果优于通用大模型+微调。除了基础大模型，许多大模型厂商都致力于推出各类行业大模型。实际应用并不一定需要大模型具有非常全面的能力，而更需要对行业知识的理解和对行业需求的适配，垂类领域预训练模型可以学习到特定领域的术语、上下文信息和任务模式，提高对该领域的语义理解和生成能力，效果上优于通用大模型＋微调。国外厂商金融垂类领域大模型纷纷问世。1)彭博社构建具备3630亿个标签、迄今为止最大的特定领域训练数据集，训练出BLOOM风格、拥有500亿参数的金融领域的大型语言模型BloombergGPT，在金融专用任务和通用任务上表现出色。 2)stratosphere.io发布Finchat，可为投资者提供750多家公司和100多家超级投资学家的书籍。 AI赋能，相关公司智能投研加速落地。1）金证股份：深耕金融科技多年，研发技术平台生态链完整，在首席人工智能官詹毅的带队下，AI能力快速发展，子公司丽海弘金（智能投资）和优品科技（智能投顾）领衔智能投研，企业级RPA软件金智维等AI相关产品构筑完整生态链。2）同花顺：AI能力及智能投顾投入较高，在AI开放平台的底座支撑下，基础版本的智能投顾“i问财”和进阶智能投资助理陆续落地，解析PDF、自动写研报等子产品模块预计于6月初上线。3）恒生电子：金融IT供应商龙头企业，子公司恒生聚源积累丰富金融数据及资讯，高研发投入下金融科技实力显著攀升，为首批文心一言生态合作伙伴，申万宏源证券联合打造“智能投研一体化平台”。4）达观数据：作为提供各类场景文本机器人的AI企业，公司研发垂直领域模型“曹植”，打造智能投研知识图谱中台，智能投研机器人在关键投研信息抽取和热点词分析上表现出色。 AI-ALPHA与市场BETA形成共振。1）ALPHA：金融IT公司AI产品持续落地，结合数据端布局、研发投入和变现能力，同花顺、恒生电子、金证股份、达观数据等公司，具备海量、丰富、高质的金融领域垂类数据，并致力AI技术研发+相应场景产品落地的领军企业，在大模型时代竞争力优势将进一步强化。2）BETA：5月以来，国内算力层激励政策频出，以北上深为代表，全国各地加快制定人工智能规划；国内以光模块、AI服务器等为代表的核心算力环节，已在订单、产能规划上展现出高景气，落地放量可期；在美股算力巨头业绩与落地持续超预期的催化下，算力需求兑现的预期正持续加强，中美共振初步显现，市场BETA增长强劲。推荐关注：结合数据端布局、研发投入和变现能力，推荐同花顺、金证股份、恒生电子、东方财富、财富趋势、指南针。风险提示：金融监管风险；AI产品线推进不及预期。一、AI+金融的四个层次：传统机器学习、通用大模型+微调、垂类大模型预训练、智能投研四阶段：传统机器学习、大模型+finetune、大模型预训练、智能投研。智能投研是利用计算机技术和人工智能算法，对金融市场进行分析和预测的一种新型研究方法。传统的投研方法主要依靠人工分析和预测，具有时间成本高、人力物力投入大、信息不对称等问题。随着技术进步，传统投研也逐步与机器学习、大模型微调、大模型预训练结合，向智能投研方向迈进。传统机器学习问答：2021年以前，传统机器学习逐步运用于在金融科技领域，包括自动化呼叫中心功能、安全领域、优化面向客户的聊天机器人的文书工作，以及改进员工培训。大模型+finetune：随着Openai的技术进展，各大模型厂商针对性开始布局基础大模型，所有大模型的训练都分为两步：首先通过预训练形成基础模型，然后针对特定领域做微调。原则上来说只要金融领域细分领域数据，通用大模型就可以针对垂直领域做优化，赋能金融领域大模型预训练：尽管大模型在通用行业中应用良好，但针对特定领域的大模型仍有其存在意义和不可替代性。为应对金融专业名词解读、市场情绪理解等复杂问题，同样具备少样本学习、文本生成、对话能力的金融领域专用LLM应运而生，以完成情感分析、命名实体识别、新闻分类以及问答等金融NLP问题。2023年3月30日，BloombergGPT正式官宣，一方面构建具备3630亿个标签、迄今为止最大的特定领域训练数据集，另一方面训练BLOOM风格、拥有500亿参数的金融领域的大型语言模型（LLM）。智能投研：未来随着AI技术的进步，具备细分领域高质量数据的公司，在大模型应用上具备先发优势，将拉动投研业务进一步向着智能投研的方向发展。未来智能投研将不断完善数据和算法模型、加强对人工智能算法的监管和规范，这将为金融行业带来新的商业模式和发展机遇。同时，智能投研也将推动金融行业的数字化转型和创新，为行业带来更加广阔的发展前景。二、垂类领域效果：大模型+预训练＞大模型+微调行业预训练大模型：比微调通用性更优。除了基础大模型，许多大模型厂商都致力于推出各类行业大模型。百度文心大模型与各行业企业联手，在通用大模型的基础上打造能源、金融、航天、制造、传媒等具体行业大模型。华为将大模型体系分为了基础大模型L0、行业大模型L1、细分场景模型L2三层。科大讯飞也提出“1+N”战略，“1”是通用大模型算法研发及高效训练底座平台，“N”是教育、医疗、人机交互、办公等行业大模型。实际应用并不一定需要大模型具有非常全面的能力，而更需要对行业知识的理解和对行业需求的适配，在具体行业上，行业大模型的泛化等能力往往要优于基础大模型+微调。大模型+预训练：预训练是指在大规模无标注数据上进行的模型训练，使得模型能够学习到语言的普遍特征和语义知识。预训练模型可以通过遮蔽任务、下一句预测任务等方式进行，例如BERT、GPT等模型。预训练的优势在于能够从大规模数据中学习语言的上下文信息，提高模型的语义理解和生成能力。垂类领域预训练使用特定领域的数据集进行模型训练，使得模型能够更好地理解和处理该领域的文本。垂类领域预训练模型可以学习到特定领域的术语、上下文信息和任务模式，提高对该领域的语义理解和生成能力。图表1：预训练模型架构差异大模型+微调：在用场景数据深度微调模型时，需要丰富的行业经验Knowhow进行评价和指导。在通过场景数据对大模型进行微调后，前期得到的模型输出可能还并不够完美，此时就需要有行业经验的专家对模型的输出进行评价，给出修改意见，再重新结合场景数据进行深度微调。比如对工业场景进行改造，可能涉及到模型具体需要和工厂内的哪些设备进行交互，还要考虑具体的作业流程。图表2：BERT的整体预训练和微调程序垂类领域数据预训练+大模型效果优于通用大模型+微调。因为具体到实际应用上，并不一定需要大模型具有非常全面的能力，而更需要对行业知识的理解和对行业需求的适配，在行业里的具体场景上，行业大模型往往比直接用基础大模型去微调具有更好的泛化能力。因此基于基础大模型和行业数据预训练大模型，一方面可以更精准匹配行业需求，一方面也能降低成本。 1）针对特定领域的语义理解：专业垂类领域预训练利用该领域的相关数据进行训练，使得模型对特定领域的语义理解更为准确。模型能够学习到该领域的术语、上下文和特定任务的语言模式，从而提高针对该领域的处理效果。通用大模型缺乏对特定领域的深入了解，无法准确捕捉特定领域的语义信息。 2）垂类领域知识的迁移能力：专业垂类领域预训练模型具有良好的领域知识迁移能力。在预训练阶段，模型通过学习大规模的无标注数据，掌握了通用的语言模式和语义关系。这些通用的语言知识能够帮助模型更好地理解专业领域的文本，并迁移应用到特定领域的任务中，通用大模型特定领域上的表现不如专业垂类领域预训练大模型。 3）垂类领域预训练和微调的衔接：大模型+专业垂类领域预训练方法可以通过在特定领域的数据上进行微调，进一步提升模型的性能。微调是指在预训练模型的基础上，使用有标签的领域数据进行有监督的训练。专业垂类领域预训练为微调提供了更好的初始状态，使得模型在领域数据上更容易收敛和优化。微调过程中，模型能够更快速地适应特定领域的数据分布和任务要求，提高模型的泛化能力。百度文心大模型与各行业企业联手，在通用大模型的基础上学习行业特色数据与知识，建设行业AI基础设施。目前包括能源、金融、航天、制造、传媒等行业。如国家电网与百度联合发布知识增强的电力行业大模型，建设更适配电力行业场景的AI基础设施，降低数据标注成本，提升细分场景模型效果；人民网与百度在传媒行业、大数据和AI算法上结合，引入人民网舆情数据中心积淀的行业知识，顺应内容与技术发展，联合研发知识增强的传媒行业大模型，打造全媒体时代内容科技创新引擎，加速传媒行业的智能化升级等。图表3：百度文心行业大模型 4月8日，人工智能大模型技术高峰论坛上，华为云人工智能首席科学家田奇表示AI for Industries是人工智能新的爆发点，华为将大模型划分为3个层级，分别为基础大模型L0、行业大模型L1、细分场景模型L2。将基础大模型L0与行业数据结合训练得到行业大模型L1，再将行业大模型L1应用于下游细分场景，进行微调和部署，得到细分场景模型L2。华为云于2021年4月发布三个基础大模型，包括NLP大模型、CV大模型和科学计算大模型，之后又陆续发布了各种行业大模型包括气象大模型、药物分子大模型、矿山大模型、海浪预测大模型等。图表4：华为云盘古大模型三、垂类领域预训练大模型具有不可替代性行业数据预训练大模型有其不可替代性，金融LLM应运而生。随着GPT大模型的推出，大模型以少量学习、文本生成、对话系统的特点在通用行业中得以应用。金融NLP任务主要聚焦情感分析、命名实体识别、新闻分类、问题回答等，虽然与一般NLP基准任务相似，但是由于金融专业术语众多、行业复杂性高，通用NLP模型会出现无法理解财经新闻背后的市场“情绪”等问题，因此专用于金融领域的LLM具备独特价值和不可替代性。基于海量金融数据积累，彭博社构建最大特定领域数据集和BloombergGPT。彭博社作为金融数据公司，在从业40年间收集整理大量金融语言文件，具备海量、广泛、高质、来源可靠的金融数据积累。基于海量的特定领域数据优势，2023年3月30日，彭博社构建具备3630亿个标签的金融领域数据集，是迄今为止最大的特定领域数据集；并发布专门针对金融领域打造的大型语言模型（LLM）BloombergGPT，该模型根据Hoffmann等人（2022）和Le Scao等人（2022）的指导方针设计，沿袭BLOOM风格，拥有500亿参数。图表5：BloombergGPT训练层数、参数汇总数据来源可靠，涵盖特定领域文本和通用文本。彭博社的数据集优势在于，不通过传统网络爬取获得数据，彭博社的数据集数据来源可靠。Bloomberg构建FINPILE，涵盖新闻、文件、新闻稿、网络抓取的金融文件以及提取到的社交媒体消息，其中51.27%的数据来自公司（特定领域的文本），包括彭博从金融相关信息的网站获取的信息、与金融界相关的有信誉的新闻来

点击免费查看完整报告

你可能感兴趣

加大重视金融AI

你可能感兴趣

通信行业周报：字节加大AIDC投入，重视AI投资机遇

非银金融行业跟踪周报重视AI金融投资机会

非银金融行业跟踪周报：建议重视AI金融投资机会

【浙商金工】勇于变化,重视AI主题二次上行——2023金融工程中期策略报告

非银金融行业跟踪周报：AI模型备案速度有望加快，建议重视AI金融板块