您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[度小满]:金融大模型技术创新与应用探索 - 发现报告
当前位置:首页/行业研究/报告详情/

金融大模型技术创新与应用探索

金融2023-11-24-度小满黄***
金融大模型技术创新与应用探索

金融大模型技术创新与应用探索 杨青 度小满技术委员会执行主席,数据智能部总经理 2023.11.24 DataFunCon#2023 目录 1.从通用大模型到金融大模型 2.金融大模型的训练技术创新 3.金融大模型的评测方法创新 4.金融大模型的应用实践创新 从通用大模型到金融大模型 大模型涌现超预期能力,有望为金融行业创造价值增量 大模型涌现出超预期的能力大模型有望为金融行业创造价值增量 理解逻辑 记忆大模型规划能力 生成知识 重塑行业格局创造价值增量提升决策精度提高生产效率 泛化性通用性实用性 01 金融知识挑战 行业数据流通难 私域数据共享难 知识更新时效长 …… 专业金融知识欠缺 但通用模型难胜任金融任务,大模型落地金融面临挑战 02 金融能力挑战 幻觉问题 计算准确性问题 遗忘问题 …… 能力不满足金融任务要求 03 应用成本挑战 GPU算力成本 能耗成本 推理成本 维护成本 训练和运营成本高 面对成本挑战,专项增强的领域模型更显高性价比 通过金融领域的定向优化,十亿参数模型在金融任务中的性能可与百亿参数模型媲美 大参数通用模型训练和应用成本高 GPU需求推理时间能耗成本维护成本 70B 13B 7B GPUHours[1] 1,720,320 368,640 184,320 48台机器训练耗时 187天 40天 20天 LLaMA-2推理所需资源: 70B 13B 7B 推理显存 129G 26G 14G 需要显卡 2*80GA100 1*40GA100 消费级显卡 LLaMA-2训练2TTokens数据所需卡时(GPUHours): 小模型+金融增强=效果成本平衡 高质量的领域数据能够让模型领域任务表现媲美5倍大模型[2] 经过金融强化的LLaMA2-13B,在多项金融考试任务上优于未经金融强化的LLaMA2-70B模型 优质通用模型 训练和推理成本高昂 较小参数模型 是更经济选择 [1]《Llama2:OpenFoundationandFine-TunedChatModels》,Meta[2]《TextbooksAreAllYouNeedII:phi-1.5technicalreport》,MicrosoftResearch 为解决通用模型不胜任问题,度小满开源了轩辕金融大模型 定位最好的金融行业大模型,金融域任务表现超越领先通用模型 5月9月11月未来 度小满开源了国内首个 千亿级金融大模型「轩辕-千亿」 度小满开源 「轩辕-70B」大模型 开源轩辕-70B-chat 及8-bit和4-bit量化模型 更多尺寸的 轩辕大模型矩阵 中文增强金融增强对话增强应用增强 扩充中文词表,并使用大量高质量中英文语料进行二阶段增量预训练 增量预训练和指令微调阶段,加入大量金融数据,提升金融理解能力 使用百万级经人工构建和校验的高质量指令数据进行指令微调和对齐 面向金融应用场景,定向增强摘要、逻辑、计算等金融场景核心能力 以轩辕70B为代表,轩辕大模型通用能力强大,金融能力领先 通用能力金融能力场景能力 在C-Eval和CMMLU两大权威榜单上,轩辕70B均名列所有开源模型第一 轩辕70B已经通过注册会计师、银行/证券/保险/基金/期货从业资格、理财规划师、经济师等金融领域权威考试,且考试得分领先于其他通用模型 轩辕70B在度小满自有金融业务场景测试中表现领先,特别金融知识问答、NL2SQL等场景表现优异 各大主流评测集成绩 MODEL MMLU CEVAL CMMLU GSM8K MBPP BBH FinanceIQ XuanYuan-70B 70.9 71.9 71.10 74.4 43 71.4 67.56 GPT4 83.93 68.40 70.95 91.4 61.8 86.7 60.05 ChatGPT 69.1 52.5 53.9 78.2 60.2 70.1 44.2 Llama2 68.9 52.10 53.11 63.5 39.6 64.9 36.02 Baichun2-13B-base 59.17 58.10 61.97 52.6 30.8 49 51.2 Qwen-14B 67.9 71.7 70.2 61.6 39.8 53.7 53.29 *榜单排名截止到Xuanyuan-70B开源发布日期2023年9月21日 轩辕金融大模型:从通才中学生到专才职场人的进阶之路 中学生:接受通识教育 通识基础 •通识是领域认知的前提 •在大规模通用文本数据上训练,掌握广泛的语言理解和信息处理能力,为后续学习奠定坚实基础 大学生:接受专业教育 行业赋能 •从通识到专业深造 •经过金融行业数据的训练,深入了解金融术语、行业案例、专家经验以及最佳实践,逐渐具备金融行业所需的专业能力 工程优化 金融增强 职场人:以岗位产出为导向 场景反馈 •从学习到实际应用的进阶 •大模型在实际金融场景中得到反馈,是进一步提高性能和适应性的关键 应用增强 价值对齐 金融大模型训练技术创新 金融增强 价值对齐 应用增强 工程优化 如何获得充分的金融知识,成为一个“金融专家”? 金融知识|金融能力|金融场景 为大模型注入专业金融知识,训练专业金融能力 增量预训练 海量金融语料提升金融知识储备 数据丰富 研报|财报|公告|资讯|百科|书籍 配比合理 动态调整中英比例与通用金融比 例,避免灾难性遗忘 指令微调 多样性指令激活问答能力 场景细分 信贷|理财|证券|投顾|客服 类型细分 金融百科|金融计算|资讯摘要 |研报解读|角色扮演 强化对齐 专业金融数据和标注满足行业偏好 数据专业 覆盖金融场景广 标注专业 全面、反映金融行业偏好 RM鲁棒性强 金融场景打分合理,指导正确 数据准备:数据质量是模型效果的保障 设计一套通用的数据清洗流水线 文本抽取 数据清洗 去重与校验 多来源数据收集正文提取 规则过滤模型过滤 MinHashLSH质量校验 •网页(Html) •书籍(Epub) (PDF) 32% 高质量模型训练语料 60% 35% 10TB通用语料 1TB金融语料 70% 100% 据 数 练 训 质量 模型 去重过滤 行级别过滤 篇章级别 过滤 原始中文数据 •研报/公告 •HTML标签移除 •PDF内容定制化解析 •格式规范化 •篇章级过滤 •行级别过滤 •训练质量模型 •训练毒害模型 •单类别局部去重 •全局去重 •人工抽样校验 •小规模模型验证 增量预训练:针对中文场景做词表构建 中文大模型需首先考虑词表构建问题,否则单字可能需要多个Unicode字符来构造 解码速度变慢编码序列变长 字粒度扩充 词粒度扩充 新增Token范围:5k-8k模型破坏小 压缩率低 词表优化 新增Token范围:20k-100k扩充幅度大,模型破坏大压缩率高 考虑到基座模型的训练稳定性,采取字粒度扩充方式 加入7k的中文字符,新词表大小约39k,词表压缩率提升48% 增量预训练:两阶段预训练使收敛更加稳定 第一阶段 第二阶段 仅更新模型的词表特征及解码线性层 使模型适应新加入词表纠正原始解码方式 对模型进行全参数更新 英文能力不下降中文能力大幅提升 数据分布与类型与原始模型保持一致 中文50%~英文50%训练约40BTokens 提升通用中文和金融领域数据占比 英文25%~中文60%~金融15%训练约300BTokens 增量预训练:数据配比直接影响基座模型的训练质量 英文数据 CommonCrawl|BooksStackexchange|GithubWikiPedia|Arxiv 1:3 数据配比 中文数据 中文百科|新闻资讯社交论坛|网页内容中文书籍|金融垂类 9:1 4:1 金融数据 金融资讯|研报公告 金融百科|金融论坛 金融书籍|...... 数据加入过程 中文知识类优先:百科、书籍、论文等 逐渐提升综合类中文语料:网页内容、新闻类等 逐渐提升金融垂类语料 英文数据持续训练 训练效果 预期效果 英文能力保持中文知识增强金融能力提升 实际效果 三项能力均随训练过程提升 英文:MMLU中文:CEVAL金融:FinanceIQ 指令微调:SFT数据的丰富性和多样性直接影响对齐效果 标签类别体系构造 人工撰写种子数据 • • • 自动生成 Self-instructSelf-QA[1] Evol-instruct[2] 校验评估 人工改写 人工撰写 数据构造 通用领域指令数据 指令数据配比 金融领域指令数据 数常识百科创意生成 据 生代码编程安全无害 成逻辑推理总结摘要 数学计算信息提取 8大类50小类 金融数据20% 通用数据80% 金融百科金融计算研报解读客服话术 4大类20小类 [1]UnsupervisedKnowledgeGuidedLanguageModelAlignmen,Duxiaoman. [2]Empoweringlargelanguagemodelstofollowcomplexinstructions,Microsoft,PekingUniversity. 两阶段指令微调:保证通用能力同时,提升金融问答能力 第一阶段:混合微调[1] 训练数据格式 指令遵循泛化能力多轮对话 SystemMessageHumanAssistant <你是一个智能助手>Human:你是谁Assistant:我是轩辕大模型</s>Human:你会 干什么Assistant:我可以....</s>.... 海量开源指令数据+预训练数据(10M+) 训练目标函数 第二阶段:指令微调 •自研的高质量指令数据(200k) •通用指令:金融指令=4:1 通用能力保持金融能力增强 NextTokenPrediction,与预训练保持一致常规指令:使用Mask机制,Response处计算损失 超长指令:计算全局损失,来提升长文本建模能力[2] [1]Alargechinesefinancialchatmodelwithhundredsofbillionsparameters,Duxiaoman. [2]Effectivelong-contextscalingoffoundationmodel,GenAI,Meta. 金融大模型训练技术创新 金融增强 价值对齐 应用增强 工程优化 语言prompt 安全prompt LLM 金融prompt 价值对齐:通过强化学习对齐价值偏好 语言 •部分表达方式非中式思维 •部分常识性问题不合国情 •一些回答易夹杂外文单词 安全 •部分观点不符合我国核心价值观 •部分敏感类问题缺乏口径对齐 •部分违法犯罪问题和我国实际不符 金融 •语言表达不符合行业风格 •金融计算能力不足易出错 •观点提取及数据分析是短板 未经对齐的模型在语言、安全、金融行业上表现和人类偏好不符 RewardModel:学习人类在语言、安全、金融行业上的价值偏好 •prompt|resA|resB •prompt|resA|resB ⇣ •prompt|resA|resB •A>B •A<B •⇣ •A=B RM PairwiseData偏好标注 价值对齐:通过强化学习对齐价值偏好 碰到有人在打架怎么办? ******,你可以拨打911联系当地执法部门,****** 对齐后 ******,您可以拨打电话110报警,****** 大麻是一种什么样的植物? 大麻是一种草本植物,属于大麻科。******。通常被用于药用和工业用途。 对齐后 大麻是一种直立草本植物,属于大麻科。******。需要注意的是,在我国大麻属于毒品,私种大麻是一种严重的违法行为。我建议您遵守道德和法律,禁止种植相关作物。****** 金融领域的ETF指的是什么基金? ETF全称为“交换贸易基金”,是一种在交换市场上市的、基金份额可变的资金。**