热门搜索：

金融大模型技术创新与应用探索

金融2023-11-24-度小满黄***

AI智能总结

报告总结

主题概览：

金融大模型技术创新：涵盖了训练技术创新、评测方法创新与应用实践创新。
从通用大模型到金融大模型：阐述了金融大模型的必要性、面临的挑战与解决方案。
金融大模型的创新点：包括训练技术创新、评测方法创新与应用实践创新。

关键要点：

1. 从通用大模型到金融大模型

重塑行业格局：金融大模型旨在通过定向优化，提升金融行业的决策精度、生产效率，创造价值增量。
挑战与机遇：通用模型难以胜任金融任务，但通过金融领域的定向优化，大模型在金融任务上的表现可媲美甚至超越通用模型。

2. 金融大模型的训练技术创新

定向优化：通过金融强化，十亿参数模型在多项金融任务上的表现可与百亿参数模型相媲美。
成本与效益：小模型结合金融增强，实现了成本与效果的平衡，例如LLaMA2-13B在多项金融考试任务上优于LLaMA2-70B。

3. 金融大模型的评测方法创新

评测体系：引入了全面、多维度的评测体系，包括客观评测和主观评测，确保评测的公正性和有效性。
评测集：包括了覆盖金融各领域的评测集，如FinanceIQ，用于评估模型在不同金融任务上的表现。

4. 金融大模型的应用实践创新

重塑金融价值链：通过AI技术应用，实现金融服务、运营、风控、营销、办公等领域的全面优化。
成本与效率：通过AI辅助，实现服务成本降低、服务质量提升，同时释放人力投入更有价值的业务。
智能化转型：AI在金融领域的深度应用，包括个性化服务、智能决策、自动化处理等，推动金融行业向智能化转型。

结论：

金融大模型的创新与发展为金融行业带来了前所未有的机遇，通过技术创新解决了通用模型在金融领域的适用性问题，通过评测方法创新确保了模型的有效性与公正性，最终通过应用实践创新实现了金融行业的全面优化与转型，展现了AI技术在金融领域的巨大潜力与价值。

金融大模型技术创新与应用探索杨青度小满技术委员会执行主席，数据智能部总经理 2023.11.24 DataFunCon#2023 目录 1.从通用大模型到金融大模型 2.金融大模型的训练技术创新 3.金融大模型的评测方法创新 4.金融大模型的应用实践创新从通用大模型到金融大模型大模型涌现超预期能力，有望为金融行业创造价值增量大模型涌现出超预期的能力大模型有望为金融行业创造价值增量理解逻辑记忆大模型规划能力生成知识重塑行业格局创造价值增量提升决策精度提高生产效率泛化性通用性实用性 01 金融知识挑战行业数据流通难私域数据共享难知识更新时效长 …… 专业金融知识欠缺但通用模型难胜任金融任务，大模型落地金融面临挑战 02 金融能力挑战幻觉问题计算准确性问题遗忘问题 …… 能力不满足金融任务要求 03 应用成本挑战 GPU算力成本能耗成本推理成本维护成本训练和运营成本高面对成本挑战，专项增强的领域模型更显高性价比通过金融领域的定向优化，十亿参数模型在金融任务中的性能可与百亿参数模型媲美大参数通用模型训练和应用成本高 GPU需求推理时间能耗成本维护成本 70B 13B 7B GPUHours[1] 1,720,320 368,640 184,320 48台机器训练耗时 187天 40天 20天 LLaMA-2推理所需资源： 70B 13B 7B 推理显存 129G 26G 14G 需要显卡 2*80GA100 1*40GA100 消费级显卡 LLaMA-2训练2TTokens数据所需卡时（GPUHours)：小模型+金融增强=效果成本平衡高质量的领域数据能够让模型领域任务表现媲美5倍大模型[2] 经过金融强化的LLaMA2-13B，在多项金融考试任务上优于未经金融强化的LLaMA2-70B模型优质通用模型训练和推理成本高昂较小参数模型是更经济选择 [1]《Llama2:OpenFoundationandFine-TunedChatModels》，Meta[2]《TextbooksAreAllYouNeedII:phi-1.5technicalreport》，MicrosoftResearch 为解决通用模型不胜任问题，度小满开源了轩辕金融大模型定位最好的金融行业大模型，金融域任务表现超越领先通用模型 5月9月11月未来度小满开源了国内首个千亿级金融大模型「轩辕-千亿」度小满开源「轩辕-70B」大模型开源轩辕-70B-chat 及8-bit和4-bit量化模型更多尺寸的轩辕大模型矩阵中文增强金融增强对话增强应用增强 扩充中文词表，并使用大量高质量中英文语料进行二阶段增量预训练 增量预训练和指令微调阶段，加入大量金融数据，提升金融理解能力 使用百万级经人工构建和校验的高质量指令数据进行指令微调和对齐 面向金融应用场景，定向增强摘要、逻辑、计算等金融场景核心能力以轩辕70B为代表，轩辕大模型通用能力强大，金融能力领先通用能力金融能力场景能力在C-Eval和CMMLU两大权威榜单上，轩辕70B均名列所有开源模型第一轩辕70B已经通过注册会计师、银行/证券/保险/基金/期货从业资格、理财规划师、经济师等金融领域权威考试，且考试得分领先于其他通用模型轩辕70B在度小满自有金融业务场景测试中表现领先，特别金融知识问答、NL2SQL等场景表现优异各大主流评测集成绩 MODEL MMLU CEVAL CMMLU GSM8K MBPP BBH FinanceIQ XuanYuan-70B 70.9 71.9 71.10 74.4 43 71.4 67.56 GPT4 83.93 68.40 70.95 91.4 61.8 86.7 60.05 ChatGPT 69.1 52.5 53.9 78.2 60.2 70.1 44.2 Llama2 68.9 52.10 53.11 63.5 39.6 64.9 36.02 Baichun2-13B-base 59.17 58.10 61.97 52.6 30.8 49 51.2 Qwen-14B 67.9 71.7 70.2 61.6 39.8 53.7 53.29 *榜单排名截止到Xuanyuan-70B开源发布日期2023年9月21日轩辕金融大模型：从通才中学生到专才职场人的进阶之路中学生：接受通识教育通识基础 •通识是领域认知的前提 •在大规模通用文本数据上训练，掌握广泛的语言理解和信息处理能力，为后续学习奠定坚实基础大学生：接受专业教育行业赋能 •从通识到专业深造 •经过金融行业数据的训练，深入了解金融术语、行业案例、专家经验以及最佳实践，逐渐具备金融行业所需的专业能力工程优化金融增强职场人：以岗位产出为导向场景反馈 •从学习到实际应用的进阶 •大模型在实际金融场景中得到反馈，是进一步提高性能和适应性的关键应用增强价值对齐金融大模型训练技术创新金融增强价值对齐应用增强工程优化如何获得充分的金融知识，成为一个“金融专家”？金融知识｜金融能力｜金融场景为大模型注入专业金融知识，训练专业金融能力增量预训练海量金融语料提升金融知识储备数据丰富研报|财报|公告|资讯|百科|书籍配比合理动态调整中英比例与通用金融比例，避免灾难性遗忘指令微调多样性指令激活问答能力场景细分信贷|理财|证券|投顾|客服类型细分金融百科|金融计算|资讯摘要 |研报解读|角色扮演强化对齐专业金融数据和标注满足行业偏好数据专业覆盖金融场景广标注专业全面、反映金融行业偏好 RM鲁棒性强金融场景打分合理，指导正确数据准备：数据质量是模型效果的保障设计一套通用的数据清洗流水线文本抽取数据清洗去重与校验多来源数据收集正文提取规则过滤模型过滤 MinHashLSH质量校验 •网页（Html） •书籍（Epub）（PDF） 32% 高质量模型训练语料 60% 35% 10TB通用语料 1TB金融语料 70% 100% 据数练训质量模型去重过滤行级别过滤篇章级别过滤原始中文数据 •研报/公告 •HTML标签移除 •PDF内容定制化解析 •格式规范化 •篇章级过滤 •行级别过滤 •训练质量模型 •训练毒害模型 •单类别局部去重 •全局去重 •人工抽样校验 •小规模模型验证增量预训练：针对中文场景做词表构建中文大模型需首先考虑词表构建问题，否则单字可能需要多个Unicode字符来构造解码速度变慢编码序列变长字粒度扩充词粒度扩充新增Token范围：5k-8k模型破坏小压缩率低词表优化新增Token范围：20k-100k扩充幅度大，模型破坏大压缩率高考虑到基座模型的训练稳定性，采取字粒度扩充方式加入7k的中文字符，新词表大小约39k,词表压缩率提升48% 增量预训练：两阶段预训练使收敛更加稳定第一阶段第二阶段仅更新模型的词表特征及解码线性层使模型适应新加入词表纠正原始解码方式对模型进行全参数更新英文能力不下降中文能力大幅提升数据分布与类型与原始模型保持一致中文50%～英文50%训练约40BTokens 提升通用中文和金融领域数据占比英文25%～中文60%～金融15%训练约300BTokens 增量预训练：数据配比直接影响基座模型的训练质量英文数据 CommonCrawl|BooksStackexchange|GithubWikiPedia|Arxiv 1:3 数据配比中文数据中文百科|新闻资讯社交论坛|网页内容中文书籍|金融垂类 9:1 4:1 金融数据金融资讯|研报公告金融百科|金融论坛金融书籍|...... 数据加入过程中文知识类优先：百科、书籍、论文等逐渐提升综合类中文语料：网页内容、新闻类等逐渐提升金融垂类语料英文数据持续训练训练效果预期效果英文能力保持中文知识增强金融能力提升实际效果三项能力均随训练过程提升英文:MMLU中文:CEVAL金融:FinanceIQ 指令微调：SFT数据的丰富性和多样性直接影响对齐效果标签类别体系构造人工撰写种子数据 • • • 自动生成 Self-instructSelf-QA[1] Evol-instruct[2] 校验评估人工改写人工撰写数据构造通用领域指令数据指令数据配比金融领域指令数据数常识百科创意生成据生代码编程安全无害成逻辑推理总结摘要数学计算信息提取 8大类50小类金融数据20% 通用数据80% 金融百科金融计算研报解读客服话术 4大类20小类 [1]UnsupervisedKnowledgeGuidedLanguageModelAlignmen，Duxiaoman. [2]Empoweringlargelanguagemodelstofollowcomplexinstructions,Microsoft,PekingUniversity. 两阶段指令微调：保证通用能力同时，提升金融问答能力第一阶段:混合微调[1] 训练数据格式指令遵循泛化能力多轮对话 SystemMessageHumanAssistant <你是一个智能助手>Human:你是谁Assistant:我是轩辕大模型</s>Human:你会干什么Assistant:我可以....</s>.... 海量开源指令数据+预训练数据(10M+) 训练目标函数第二阶段:指令微调 •自研的高质量指令数据(200k) •通用指令：金融指令=4：1 通用能力保持金融能力增强 NextTokenPrediction，与预训练保持一致常规指令：使用Mask机制，Response处计算损失超长指令：计算全局损失，来提升长文本建模能力[2] [1]Alargechinesefinancialchatmodelwithhundredsofbillionsparameters，Duxiaoman. [2]Effectivelong-contextscalingoffoundationmodel,GenAI,Meta. 金融大模型训练技术创新金融增强价值对齐应用增强工程优化语言prompt 安全prompt LLM 金融prompt 价值对齐：通过强化学习对齐价值偏好语言 •部分表达方式非中式思维 •部分常识性问题不合国情 •一些回答易夹杂外文单词安全 •部分观点不符合我国核心价值观 •部分敏感类问题缺乏口径对齐 •部分违法犯罪问题和我国实际不符金融 •语言表达不符合行业风格 •金融计算能力不足易出错 •观点提取及数据分析是短板未经对齐的模型在语言、安全、金融行业上表现和人类偏好不符 RewardModel：学习人类在语言、安全、金融行业上的价值偏好 •prompt｜resA｜resB •prompt｜resA｜resB ⇣ •prompt｜resA｜resB •A>B •A<B •⇣ •A=B RM PairwiseData偏好标注价值对齐：通过强化学习对齐价值偏好碰到有人在打架怎么办？ ******，你可以拨打911联系当地执法部门，****** 对齐后 ******，您可以拨打电话110报警，****** 大麻是一种什么样的植物？大麻是一种草本植物，属于大麻科。******。通常被用于药用和工业用途。对齐后大麻是一种直立草本植物，属于大麻科。******。需要注意的是，在我国大麻属于毒品，私种大麻是一种严重的违法行为。我建议您遵守道德和法律，禁止种植相关作物。****** 金融领域的ETF指的是什么基金？ ETF全称为“交换贸易基金”，是一种在交换市场上市的、基金份额可变的资金。**

点击免费查看完整报告