您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[极客传媒]:北京银行金融人工智能应用平台建设与实践 - 发现报告
当前位置:首页/其他报告/报告详情/

北京银行金融人工智能应用平台建设与实践

2024-08-23-极客传媒一***
北京银行金融人工智能应用平台建设与实践

北京银⾏⾦融⼈⼯智能应⽤平台建设与实践 1 目录 CONTENTS 1建设背景 2总体架构 3技术特点 4场景应用 1.1项目背景:人工智能技术是金融科技发展的重要推动力 国际形势 AI全球竞争加剧 国家层面 构建人工智能增长引擎 行业层面 金融服务全生命周期智能化 •自ChatGPT诞生到Sora走红,AI大模型技术引发全球持续关注,掀起了第四次人工智能革命浪潮。大模型呈现出来的智慧涌现能力,被认为不亚于PC和互联网的诞生,将彻底改变产业形态和竞争格局。 •通用人工智能是全球科技竞争的焦点,也是中美科 技博弈和战略竞争的必争之地。未来的竞争力取决于人工智能在日常业务中的应用。 我国在芯片、框架、基座模型等AI生态上处于劣势 •大模型在芯片、框架方面的建设生态不如英伟达、cuda、Pytorch等国外产品。 •人工智能是新一轮科技革命和产业变革的重要驱动力量,加快发展新一代人工智能是我们赢得全球科技竞争主动权的重要战略抓手,是推动我国科技跨越发展、产业优化升级、生产力整体跃升的重要战略资源。 《加快建设具有全球影响力的人 工智能创新策源地实施方案》 •2023年5月提出,到2025年,本市人工智能技术创新与产业发展进入新阶段,基础理论研究取得突破,原始创新成果影响力不断提升,关键核心技术基本实现自主可控。 “人工智能+”行动政府工作报告 •深化大数据、人工智能等研发应用,开展“人工智能+”行动,打造具有国际竞争力的数字产业 集群。 •2021年,人民银行发布《金融科技发展规划2022-2025》 抓住全球人工智能发展新机遇,以人为本全面推进智能技术在金融领域深化应用。着力打造场景感知、人机协同、跨界融合的智慧金融新业态,实现金融服务全生命周期智能化。 •2022年,银保监会发布 《关于银行业保险业数字化转型的指导意见》 加强创新技术的前台应用,丰富智能金融场景。 •注重引进和培养金融、科技、数据复合型人才,重点关注大数据、人工智能等专业领域。推动营销、交易、服务、风控线上化智能化。 3 1.2项目背景:金融行业大模型应用的难点 美国政府半年来三次修改贸易政策,限制AI芯片、材料,甚至装有芯片的个人电脑出口中国。 英伟达限制中国AI芯片运行CUDA框架。 90%的网络数据为国外产生或国外语言,ChatGPT使用的数据英文占92%,中文不到1%。 金融行业数据集较少,中文更少,内容主要是新闻和上市公司公告,内容单一。 生成式模型输出不可控,在金融场景下表现未知。 大模型金融应用测试验证困难,风险暴露不充分。 端到端解决方案不够,降低使用场景充数。 4 1.3项目背景:建设AIB——人工智能驱动的商业银行 2023年,北京银行提出了“B=IB+AIB”理念,并指出:“要加快企业级数字化转型,用AI驱动构建面向未来的金融核心能力,推动经营质效和客户体验的提升,为高质量发展注入新动能。秉持“一个银行、一体数据、一体平台”的理念,聚焦人工智能技术的创新应用,积极构建金融智能生态。” 5 1.4项目目标:建设以知识驱动的“大模型”应用体系 全面建设数字京行 发展模式业务结构客户结构营运能力管理方式 5 加强风险管理 建立量化风控模型,依托模型实验室和风险滤镜,助力打造全面的风险管理体系。 “大模型”+“小模型”双轮驱动 1 提高 运营效率 利用大模型驱动RPA、数字人等数字化技术重塑业务流程,降低 成本,提升效率。 2 精准 拓客营销 利用机器学习技术,建设量化投资组合、精准营销、客户流失等模型,助力获客、活客、留客。 3 支持 产品创新 开放语音、图像、文字识别等AI服务,利用AI技术促进智能化、数字化产品创新应用。 4 优化 客户服务 助力建设智慧金融服务场景,为一线客户经理提供智能营销工具, 提升双客体验。 知识驱动的“大模型”应用体系 6 以数据驱动的“小模型”应用体系 目录 CONTENTS 1建设背景 2总体架构 3技术特点 4场景应用 2.1总体功能架构 服务中心 (服务) 流程开发 流程挖掘 模型管理 语音识别 文字识别 视频分析 图像处理 定制OCR识 定制文别本识别 语义理解 智能决策 知识图谱 知识推理 镜像管理效果对比模型共享优化加速安全加密 虚拟数字人 多模态大模型 模型纳管 服务发布 京智助手 法律合规审计问题引证 京信妙笔 会议纪要智能客服 北银投顾 初审报告生成尽调报告生成 Agen 边缘计 大模型推理服务 算 公共服务 t 指标查询生成写作 问答检索任务执行 智能会议 京行视窗双录视频质检 竞赛发布竞赛报名信息统计自动测评 大模型分布式训练服 大模型开发 模型下发 模型中心 特征探查可视化分析自动化建模 务 P-Tuning RLHF 服务注册服务发布应用接入 云上纳管 效果监控 (算法) 作业建模 Notebook 模型验证 SFT 节点管理 特征监控 AutoML可视化建模智能OCR 大规模分布式训练框架 高性能推理引擎 资源监控 分布式建模 在线建模 量化分析 Prompt工程插件管理 讯党建知识客服数据 特征平台 机器学习模型深度学习模型 客户信息交易信息产品信息行为信息 京智大模型太乙雅意文心一言知识库 行为信息操作手册规章制度产业研报行外资 服务启停 用户管理项目管理组织权限数据权限 (数据)文本标注图片标注语音标注标注审核表管理字段管理数据申请 DataAnalyticsEngine(DAE) 基础设施 数据底座—数据沙箱(脱敏数据)数据底座—数据安全屋(真实数据) 调度 一个国产化算力底座 作业 系统消息邮件通知 (算力) CPUGPUNPU 存储统一接入 弹性扩缩 存储统一管理计算资源接入两级资源池计算资源管理 监控管理集群管理 场景应用 (应用) 8 2.2应用架构 以数据驱动的 以知识驱动的 降本增效精细管理营商环境 建立办公智能助理平台,实现全员AIAgent私人订制 小模型应用体系 大模型应用体系 写作营销客服 助手助手助手 表格视频差旅 助手助手助手 校对会议 通用化+专属化+场景化+普惠化 助手助手 场景 小模型 +大模型 建立金融场…景应用平台,打造特定业务领域最强大脑 北银运营 投顾助手 赋能 … 京 京行财报智能京客数币专精智能京行研究助手客服图谱银行特新合规策略 企业知识库 智场景应用 大 建立全行知识管理平台,训练北京银行企业级大模型 脑服务中心 总行价值图谱分行价值图谱 支行价值图谱 机构价值图谱 人算法中心 工 智数据中心 能 京智6B大模型 建立行业模型,洞悉产业链价值链金融需求 行业大模型 京智13B大模型京智130B大模型… 平算力中心 台 全栈人工智能中台, 提供八大AI技术能力。 建立基础模型应用平台,集约接入先进预训练大模型 基础大模型 千问大模型百川大模型智谱大模型雅意大模型… AIB金融人工智能应用平台 9 2.3技术架构 •开放的大模型生态 支持多种行业主流大模型部署应用,支持根据业务场景需要,择优使用。 业务应用层 AIB 审计 助手 研报生成 模型层 尽调 报告 会议 纪要 指标 分析 L2:场景任务模型 知识抽取 实体识别 意图识别 知识问答 指标查询 应用层探索AIGC在智能客服、法律合规、数据分析、协同办公等场 景应用。 •丰富的插件能力 自主研发大模型插件集成框架, L1:金融行业模型 京智6B京智7B京智13B京智130B L0:基础大模型 模型层 支持国内、外主流模型部署, 基于主流开源大模型,。 可将大模型与行内现有业务系 统、数据服务、办公系统无缝 雅意2 百川2 太乙GLM3 通义千问 集成。 •内外联通数据体系 数据清洗 Tokenization特征抽取 框架层 文档抽取 数据层 向量化存储 搜索增强 提示工程 框架层 依托京智大脑,构建大模型推理和训练平台。 基于全行知识库、互联网资讯数据、企业信用数据,为大模型注入和更新知识。 工商司法招投标财报企榜业单数据园区 规章制度操作指引监管政策运营制度研究报告业务培训 行内数据 算力层 GPUNPU10CPU 金融资讯百科 行业数据产业链数据 互联网聚合数据 数据层 算力层 整合行内外数据夯实数据基础,建立金融数据集500亿token。 建设国产化AI算力至资源池, 搭建智算网络。 目录 CONTENTS 1建设背景 2总体架构 3技术特点 4场景应用 3.1建设全栈国产化算力基座和训练框架,提升自主可控能力 全国产化算力 算力层面依托华为实验室昇腾910B在不同参数大模型适配进展,采用全国产NPU算力,打造国产化算力集群,使我行国产化算力增加一倍。 MindSpore昇思框架 框架层面基于MindSpore昇思框架,发挥硬件最大潜力,达成模型实际性能,实现从单卡到集群的最大线性集成度,云边端全场景高效部署,可降低40%迁移工作量。 智算网络 构建全行智算网络,实现在中心训练、在分行推理、在边缘终端应用的模式,满足低延迟、高并发的AI推理应用需求,AI算力的使用效率提升30%,模型部署效率提升45%。 12 3.2构建可信金融训练集 多维度金融数据集智能过滤技术 高可信混合式金融指令数据生成技术 利用全球多模态数据采集技术、金融文档解析技术、数据清洗技术、多维度智能过滤去重技术、内容质量筛查技术,基于启发式规则过滤器、困惑度评分器、基于多级别与精确匹配的级联去重器,构建高质量的金融数据集。 针对金融领域数据更新快、内容忠实性高、风险厌恶的特点,通过种子指令扩张、背景数据混杂、拒答指令混杂、rag风格指令生成等技术,增加指令多样性、提高模型信息忠实性、抗干扰能力。 13 14 3.3构建金融领域混合专家模型 节约推理资源:与传统模型相比,在相同参数量的条件下,混合专家模型推理速度提升25%。 提高模型准确性:通过集成多个专家模型,混合专家模型能够综合各个模型的优点,在我行金融数据测试集上,预测准确性提高15%。 灵活性和可扩展性:实现应用系统和具体模型 版本、数据的解绑,灵活的添加或调整专家模型,给系统开发和维护增加灵活度。 处理复杂问题:对不同数据特征实现“专注”,通过多专家模型,使得每类子问题都找到最优的解决方案,提升了服务质量。 15 3.4建设大模型服务平台,降低大模型训推成本 大模型市场 1 2 全栈工具链 3 更全面-打造全栈式工具链 •提供基础配置、数据管理、模型训练、模型管理、模型部署、 预测服务、在线测试全链路工具能力,覆盖大模型全生命周期, 高效实现端到端的大模型开发、训练和部署工作。 更高效-训推成本降低50% •预置京智大模型和10个L0大模型能力,结合场景数据,可对大模型进行二次性能增强,提供三种自动化训练工具,优化模型吞吐、降低模型尺寸、集成先进加速框架,实现模型推理速度的大服务提升,据测算,调优后模型体积可压缩至25%~50%,推理训练成本可降低50%。 更安全-集成多种安全机制 •平台内置安全算子和高危词典安全过滤,保障输出内容安全,并通过完善的鉴权与流控安全机制,全面严格的数据安全策略和技术支撑体系,保障行内数据安全;安全合规的训练数据和SFT多种训练方式,保障模型安全。 3.5建设Agent智能体应用能力,实现大模型应用能力快速对接 流程编排 Agent配置 插件建设 可继承行内现有能力或自主增加能力作为Agent技能,促进基础技能、业务技能的不断沉淀与提升。 工作流编排 对于逻辑复杂的多步骤任务场景,可灵活组装多个节点,有稳定的输出结构,支持重复任务执行。 知识库构建 技能化 对话调试 集成BGE、multilingual-e5-large等多个向量化模型,可自主构建业务知识库。将业务数据