0 1 2 3 1.1大语言模型技术发展概述 语言建模(LanguageModel)可分为四个发展阶段,分别为统计语言模型、神经语言模型、预训练语言模型、大模型语言模型。 其中最早的统计语言模型基于统计学习来预测单词,而后演进成为神经语言模型基于神经网络方法预测单词。在神经网络语言模型中,通过使用神经网络,将单词映射为向量作为网络模型的输入来估计单词序列的概率。随着注意力机制被引入,注意力层 (AttentionLayers)在文本中建立了词之间的相关性,使得模型在生成下一个单词时,考虑到整体语句的意思,从而建立了Transformer架构,提升了模型理解和生成语言的能力。 但随着参数的增加,需要大量人力来标注数据,因此OpenAI提出了预训练语言模型 (GenerativePre-TrainedTransformer),通过无监督学习在大规模无标签语料库上进行预训练任务,在预训练中模型学会了基于前一个单词预测后一个单词。除此之外,模型还可以针对特定的任务基于更小的数据集进行微调,提升在特定领域的性能。基于此,通过不断叠加数据增加模型参数规模以及优化模型的提示工程,不仅可以解决更复杂的任务,同时也拥有了更强大的文本涌现能力1,从而演进成为大模型语言模型(以下简称“大模型”)。 大模型浪潮爆发后,国内各企业纷纷推出自研大模型,大模型应用迎来了蓬勃发展的阶段。据测算,我国2030年基于大模型的生成式人工智能市场规模有望突破千亿元人民币。 与此同时,国内垂直行业领域的大模型也成为各个行业头部企业未来的发展趋势之一,其中前沿的垂类大模型涉及领域包括媒体影视、电商、广告营销、游戏、医疗、教育 1Zhaoetal,《ASurveyofLargeLanguageModels》 及金融行业。比如在金融领域,大型科技企业如华为推出了盘古金融大模型,而蚂蚁集团则在外滩大会发布了金融大模型“AntFinGLM”并应用于蚂蚁集团内部产品“支小宝”和“支小助”。 金融行业大模型在所有行业垂直大模型中落地速度相对较快。金融领域拥有天然的大量数据积淀,从而为大模型应用提供了良好的数据基础。同时金融领域大模型的应用场景较多,基于这些不同的场景,大模型有助于从不同角度提升原有从业人员及机构的工作效率。比如大模型情绪分析的功能可帮助从业者基于投资者情绪状态预测股票的价格;大模型精确度的提升可帮助从业者预测市场走势,大模型可基于过去大量的金融数据学习预测未来市场趋势帮助投资者和金融机构做出更合理的决策;而复杂任务的处理可协助从业者将大模型用于交易策略上,通过分析大量交易信息,大模型或可识别交易中的风险参数并给出风险防控策略。 1.2大模型引领中国金融领域科技的国际化发展 因此,通过提升金融服务的效率和质量,大模型可提升我国金融机构的核心竞争力。首先大模型的自然语言理解与内容生成能力可以与用户进行多轮问答对话,提升金融客服的服务效率。其次,通过大模型进行智能数据挖掘处理,金融机构能够更快速准确地获取市场趋势的洞察,做出更明智的决策。同时,大模型可以迅速了解各国的法律、监管规定和市场动态,为金融机构提供国际化的业务洞察和决策支持,帮助中国从业者更好地理解和适应国际市场的业务需求和规则。 海外金融科技公司已经在积极探索和持续深化大模型在金融服务领域的应用。Bloomberg已推出BloombergGPT,一个基于500亿参数训练的应用于金融领域自然语言处理的大模型。据研究,当前此大模型在金融任务包括金融资讯分类任务(FPB),预测特定领域的金融新闻及话题(FiQASA),股指推理(ConFinQA)等特定任务上的表现大幅领先于现有的近似规模的开放模型2。BloombergGPT的推出说明海外在大模型金融科技应用方面已经取得了一定的成果。除此之外,一些传统金融机构也通过基 2Wuetal,《BloombergGPT:ALargeLanguageModelforFinance》 础大模型的应用提升业务竞争力,大型国际投行MorganStanley已将GPT-4应用在财富管理领域打造内部智能助手从而辅助其财富管理顾问快速搜索所需资讯,高效地为客户提供服务。与此同时头部对冲基金Citadel也拟在全公司各条业务线中应用ChatGPT,提升业务运作效率。 而我国大模型和数字金融已有较好的产业发展基础,宜抓住此轮大模型科技变革机遇,进一步提升我国数字金融国际竞争力。2023年中央金融工作会议提出将数字金融上升到国家战略部署的新高度,而大模型等新技术将进一步扩展金融科技的发展空间。根据《金融科技发展规划(2022-2025年)》,目前应要抓住全球人工智能发展新机遇,深化人工智能技术在金融领域的应用。因此,我们应把握大模型技术浪潮,提升金融科技全球竞争力。 2.1大模型在金融领域的应用挑战 由于金融行业的专业性、严谨性、合规性等特点,在把大模型技术应用到金融领域时,需要解决下述挑战,如图2-1所示。 通用大模型的金融专业性不足 金融领域具有高度的专业性,涵盖了复杂的金融理论、模型和实践,有着独特的术语内涵和表达方式。这些内容在常规的大数据训练集中往往表现不足,使得通用大模型在理解复杂的金融概念和操作上显得力不从心。 通用大模型的金融情境理解能力不足 通用大模型难以完成较复杂的金融指令 通用大模型难以满足金融场景的定制化需求 通用大模型难以满足金融领域应用的合规要求 金融市场高度情境敏感,同一事件在不同的情境下可能释放出不同的信号。例如,某一公司发布的财务报告如果不符合市场预期,对于该公司而言可能是负面的,但对于寻求低估值入市的投资者而言却可能是一个机会。通用大模型很难精准把握这种情境下的语义差异和心理预期,这就要求模型能够更加敏感地对待金融语境和事件,需要对这些模型进行金融情境的深度训练和优化。 金融领域在交易过程中存在大量较复杂的工具指令,如限价单、止损单等,都需要精确的表达和执行。这些指令往往与特定的金融逻辑紧密相关,通用大模型如果不能准确执行这些复杂的金融指令,就很难在金融领域中得到有效应用。 金融领域具有高度的多样性,不同的机构和场景可能有着截然不同的需求。例如,投研场景会关注实时热点分析,投顾场景需关注投资者安抚等。通用大模型无法满足这些多样化和定制化的需求,从实践来看在落地过程中还涉及到具体的定制化调优。 金融市场受到严格的法规制约,包括反洗钱(AML)、客户了解程序(KYC)、数据保护法规、适当性义务等。这些法规要求金融机构在处理客户数据和执行交易时必须遵循特定的规则和程序。通用大模型可能在设计时没有充分考虑这些合规性问题,因而在应用时可能无法确保机构的业务操作符合监管要求。 图2-1大模型应用到金融领域时需解决的挑战 面对上述挑战,金融机构在应用大模型到金融业务场景的过程中,一般需要经过两个主要步骤:一是从通用大模型进一步训练调优出专业的大模型;二是以大模型为核心,结合金融专业知识库、金融专业工具库、智能体、安全合规组件等构成一个可满足金 7 融领域安全应用要求的应用系统,来支撑在金融应用各场景中的应用,如下图所示。 大模型 (金融) 大模型应用框架 (金融) 基础大模型 •金融工具使用 •金融知识增强 •金融安全合规 •协作、多智能体等 • • 金融专业知识注入 推理、规划能力提升 •通识知识 图2-2大模型在金融领域落地应用路线图示意 2.2金融领域的行业大模型开发技术 2.2.1开发技术框架 一个完整的大模型构建和应用流程如下图所示,包括:从数据收集和处理开始,通过领域适配训练使模型理解金融语境,然后通过性能优化确保模型的实用性和高效性,接着处理幻觉问题以提高事实性,最终实现复杂推理的能力。 大模型复杂推理 模型 部署层 幻觉降低 行业大模型部署与推理优化 模型 部署层 实时性 幻觉 2.2.5.1 金融行业领域适配训练(2.2.3) 模型 训练层 金融行业数据收集与梳理 数据层 金融指令增强 2.2.2.3 金融指令收集 2.2.2.2 金融数据收集 2.2.2.1 忠实性幻觉2.2.5.2 与人对齐 2.2.3.2 低资源领域适配 2.2.3.1 参数微调 模型量化 2.2.4.3 请求批处理 2.2.4.2 内存管理 2.2.4.1 智能体 2.2.6.2 XoT2.2.6.1 图2-3大模型开发技术框架 框架中各层主要关注的问题如下: 数据层:构建大模型的第一步是数据收集和处理,这涉及搜集金融领域的大量数据集,包括公司公告、金融新闻、投资研报等。此外,为了使大模型具备处理下游各类金融任务的能力,还需要收集多样的、高质量的金融指令数据。 模型训练:此处主要关注大模型领域适配训练,通常包括有监督的参数微调和对齐技术,以调整模型对金融术语、概念和上下文的理解,使其更好地适应金融行业需求,并符合人类价值观。此外,还需要考虑到低资源条件下领域适配技术,以满足实际应用中成本和条件的要求。 模型部署:金融应用中模型的快速响应至关重要。需要考虑在特定的硬件资源下,如何提高模型的推理效率,从而改善用户体验和决策支持的实时性。 复杂推理:金融场景的复杂推理能力是大模型的高级功能,允许模型进行多步推理和决策支持,这通常涉及到构建复杂的推理链、使用情景模拟和智能体决策技术等。 幻觉降低:金融领域的高准确率和事实性要求,需要大模型能够有效处理幻觉问题以降低误导性决策风险,这包括开发和应用技术来识别和纠正模型在生成预测或解释时可能产生的忠实性幻觉和事实性幻觉等。 2.2.2金融数据收集与梳理 2.2.2.1金融数据集收集 金融数据集的构建是一项综合性工程,涉及预训练数据、指令数据和安全数据这三种主要类别(如表2-1所示),每一类别的数据都对大型金融语言模型的训练起到不可或缺的作用。 数据类别 描述 主要数据来源 具体描述 包括但不限于财务报表、盈利预测和负债情况等。这些数据主要来源于公司的年度和季度报告,可通过上市公司的公告、证 企业财务报告 券交易平台以及金融数据服务供应商获 负责为模型输送必 得。使用这些数据需对表格、图表等进行 要的语境认知、语言 转换,以便模型能够解析和理解其结构化 结构理解以及广泛 的数据格式 的知识背景。在金融领域的大型模型预 这些文献深入探讨金融理论的基础知识, 训练过程中,引入专 金融领域学术 包含专业教材、投资指南、个人理财策略、 预训练数据 业金融数据是至关重要的,它确保了模 论文与书籍 经济学原理等内容。这些资源可以通过学术数据库或图书馆访问 型能够准确把握金融行业特有的知识 这类报告提供关于特定行业或市场的深 和表达风格,与通用 行业分析报告 入分析和洞见。源自金融咨询公司和市场 大模型不同,金融语料往往存在获取困 及市场研究 研究机构的报告往往需要通过商业采购来获取 难,数据非结构化等特点 诸如基金投资策略、保险条款等介绍性资 金融产品说明 料,这些信息多由券商、基金公司以及保险产品供应商提供 构建金融指令集的 覆盖金融、投资、经济、会计等基础理论, 目的是使人工智能 和针对保险、基金、证券等具体金融产品 模型适应金融领域 金融知识指令 和服务的行业应用知识,金融知识指令有 的专业性和复杂性, 助于提高模型在处理专业金融问题时的 增强对金融术语、计 准确性和专业表达 算、规范的理解与应 指令数据 用能力。这为用户提 包括财务分析和复杂计算公式的操作,金 供精准、合规的专业 融计算指令不仅要求大模型具有数值计 建议和决策支持,同 算能力,并且需要有将金融问题转化为计 时满足特定金融角 金融计算指令 算问题的理解能力,相关指令可以使模型 色的需求,推动金融 具备执行精确计算的能力,帮助用户做出 多样化服务 更好的财务决策 金融行业受到严格的监管和合规要求,具 金融遵循 有高度专业与严谨的特性。金融遵循指令 指令 确保输出内容符合金融行业规范和写作标准大模型的应用受众包含专业的投资研究员以及非金融专业用户,通过构建不