大模型在金融行业的落地探索 祝世虎 ◆ 目录 CONTENTS 01大数据、大模型、大风控 02大合作、大创新、大共存 03关注问题:后发劣势、可解释性、社会智能等 0金融机构眼中的大模型技术4 0数字化转型助力大模型 5 06数据信托助理大模型 07大模型治理 CONTENTS 01大数据、大模型、大风控 01 数据概念辨析 数据 标签 特征 数据加工用途加工 1.概念辨析:数据、标签、特征、信息 2.信息的贡献度:数据>>模型 3.数据与大数据的辨析:直接数据与间接数据 人脑 信息 01 3.1大数据、大模型、大风控 大模型定义 •《自然-机器智能》将大模型定义为网络参数规模达到亿级以上的“预训练深度学习算法” •大模型通过海量数据的训练学习,具备了强大的语言理解和表达、思维链推理等能力,在文本图像理解、内容生成等AI任务表现出显著优势和巨大潜力 大模型的“智能类型” •大模型通过文本语言等训练的模型,是一种感知智能,不是决策智能,更不是计算智能 •感知智能:基于Bayes公式 •决策智能:基于先验概率 •计算智能:基于计算公式 大模型是一种生产力的提升“电力——智力” •我们必须跟随时代潮流,逆潮流必然被淘汰 •敌对的人:不屑——坚决——限制——迷茫 •友好的人:好奇——尝试——学习——使用 大模型与传统模型的未来趋势:由共存到超越 •先共存:受制于计算复杂度高、可解释性差等问题,大模型会与传统模型会共存; •共存方式:大模型为中控,可解释性模型为外围 •后超越:随着大模型复杂度降低、可解释性增强,大模型将逐步替代传统模型 01 3.1大数据、大模型、大风控 系统性:大尺度和小尺度之间存在关系 传统风控 1 要点 传统风控 • • • • 认为风险就是不确定性 用流程管控风险 用资本抵补来管理风险 模型、压力测试等均为工具 复杂性:由小尺度数据特征的动态非线性和随机关联 可解释性:传播因子(阻碍因子)、传播路径 智能风控 2要点 智能风控: •能够精准计量风控 •风险、利润、客户的最优化管理是一个体系,是为银行战略服务 •客户主标尺 •风险主标尺 法 客户本身风险 客户信用风险 客户欺诈风险“场景之内” 风险 场景级别风险 场景经营风险 场景欺诈风险 场景交易风险 场景客群偏差风险 场景特定风险 “场景本身”风险 大尺度风险 宏观级别风险 场景集中度风险 场景“逆周期”风险 场景“灰犀牛”风险 场景“战略违约”风险 “场景之外”风险 小尺度风险 传导机制 还款意愿 : 《SCIembAI—跨尺度系统智能》介尺度的多模态建模方 大风控 3 要点 不是传统的“全面风险管理” 不仅仅是体系化: •风险传播体系 •数据模型体系 技术实现(下一代):传播的刻画I CONTENTS 01大合作、大创新、大共存 02 大合作 银行与AI公司合作开发适合自己的大模型 任务 大模型 金融业的AI公司 金融业/银行业 大模型 头部AI公司 基础大模型 大合作 大数据整合: •银行内部大数据的整合 •银行外部大数据的补充 大算力合作: •非核心竞争力的专业能力一定要外包 •云上大模型 实现垂直领域的精调模型 •迁移大模型能力 •结合行内大数据与知识库 •以银行的小规模算力打造轻量级推理模型 (精调模型) 02 大创新 智能客服机器人投资分析与预测 责任客服VS非责任客户保险公司的产品推荐 提升客户粘性 弱化人类情感 智能风控、反欺诈、反洗钱其他垂直领域的金融应用 标注样本 写代码写算法环境感知 智能OA智能写文稿智能运营 02 大共存 大共存 由共存到超越 共存:大模型随通用能力增强,将逐步超越传统模型的能力,但受制于计算复杂度高、可解释性差等问题,短期内,大模型和传统模型会共存。 共存方式:大模型可作为中控,将传统模型作为技能进行调用。 超越:随着若大模型计算复杂度降低、可解释性增强,综合性价比来看,大模型将逐步替代传统模型 03 CONTENTS 关注问题: 1.后发劣势 2.可解释性 3.社会智能 4.“类征信” 03 避免“后发劣势陷阱” “后发劣势陷阱” 缺乏业务的实践经验 对智能风控体系建设的要点理解并不充分 选择性模仿表面、容易实现和出成果的部分 数据基础 要“俯首甘为孺子牛”,做大量的、耗时间的的数据工作,以实现对模型的效能的提升 科技整合 要“横眉冷对千夫指”,要做革命性的、基础性的科技改造来实现业务全流程的互联互通,进而实现对业务的敏捷支持 算法研究 要“甘做无名英雄”,逐步建立算法研究能力,进而“随风潜入夜,润物细无声”的实现智能风控对业务完美支持 03 其余问题 类征信 持牌? 可解释性 弱化可解释性白盒套黑盒 平均智能 中小银行备受挑战 CONTENTS 04金融机构眼中的大模型技术 04 金融机构眼中的AI技术 生物特征识别 客户身份验证、远程开户、刷 脸支付等场景 知识图谱 对贷款信息、行业信息建立关系挖掘模型,通过机器学习进行模型训练 计算机视觉 人脸识别、票据识别、场景识别 智能语音 问答、咨询、理财、查询;身份识别、智能客服、智能理赔等 机器学习算法 深度学习、强化学习、自然语言处理 自然语言处理 词嵌入、句子嵌入、编码-解码、注意力模型 04 金融机构眼中的大模型能力 人机交互能力 覆盖审计、财务、客服、营销、承保理赔等多个保险领域业场景 生成式能力 代码生成内容生成 —岗多能 贯穿远程银行全条线业务工作内容,覆盖事前运营、事中辅助和事后质检等环节 04 金融机构眼中的大模型技术发展历程 基于规则和统计模型的方法来处理语言翻译 使用编码器-解码器架构,并通过大规模平行语料库 进行训练 通过学习语言中的概率分布来预测下一个单词或 字符 基于自注意力机制的神 经网络模型 基于 Transformer的预训练语言模型(无标签数据预训练模型 ) 基于 Transformer的 预训练语型 ) 统计机器翻译(SMT) 神经机器翻译(NMT) 语言建模与序列到序列学习 Transformer 模型 BERT GPT 04 网络安全风险 技术同质性风险 学习局限性性风险 系统安全与稳定性 金融机构眼中的大模型缺陷 智能缺陷:感知智能而非决策智能 技术缺陷:人工智能算法固有缺陷 数据安全缺陷:多个环节存在合规问题 •通过文本语言等训练的模型, •一是,算法黑箱。由于算法 •1.在个人信息收集阶段,当用户在使用ChatGPT时,会输入自己的个人数据,依据《个人信息保护法》强调单独授权。•2.在个人数据的加工使用阶段,ChatGPT使用了RLHF的训练方法,用户使用过程中的输入和交互信息可能会用于其持续迭代训练,进一步被用于为其他用户提供服务,可能构成数据共享,这时已与用户初最初使用目的相悖,根据《个人信息保护法》需要重新授权。•3.训练数据的获取。ChatGPT通过抓取互联网上的信息,可能存在合规问题。•4.数据泄漏。用户在使用过程中输入个信息,以及企业用户输入的各类工作相关信息,可能导致公司敏感信息泄露。•5.算法缺陷导致数据主体行权困难。如更改权、删除权、访问权等行权困难。 其智能类型是受限的,可见 模型的黑箱运作机制,其运行 ChatGPT只不过是一种感知智 规律和因果逻辑并不会显而易 能,不是决策智能,更不是计 见的摆在研发者面前。 算智能。 •二是,算法鲁棒性。算法运 感知智能:基于Bayes公式 行容易受到数据、模型、训练 决策智能:基于先验概率 方法等因素干扰,出现非鲁棒 计算智能:基于计算公式 特征。可能会有针对性的病毒 •智能缺陷就是ChatGPT的使 产生。 用边界。 •三是,算法歧视。算法以数 •例如,在金融机构中, 据为原料,如果初始使用的是 ChatGPT不是决策智能,用于 有偏见的数据,无形中会导致 风险决策受限;ChatGPT不是 生成的内容存在偏见或歧视, 计算智能,用于资本计量受限; 引发用户对于算法的公平性争 ChatGPT是语言领域的感知智 议。歧视主要来自资本绑架, 能,可以以文字助手的身份嵌 体现为训练样本数量。 入大部分和文本相关的工作。•九博士:量化、风控试错 CONTENTS 05数字化转型助力大模型 05 生产关系适应生产力的发展 生产力与生产关系 生产力决定生产关系 生产关系要适应生产力的发展 生产关系会反作用于生产力 经济基础决定上层建筑 2021年国务院《关于构建更加完善的要素市场化配置体制机制的意见》,首次将数据要素与土地、劳动力、资本、技术等市场要素相并列。 金融领域转型的三要素体现为: 金融机构的生产资料: 【1】掌握先进生产力的人 【2】数据 金融机构的生产力: 【1】新业务 【2】新科技 金融机构的生产关系: 【1】部门边界 【2】资源分配 05技术的转型、金融科技转型、银行的三次转型 1技术转型 KevinKELLY:技术的冲突→掌握技术的人群的冲突→资源和利益的冲突→生产关系的更迭 人民银行科技司司长李伟:金融科技,始于数据,兴于技术,稳于制度,成于价值观 2 金融科技转型 3银 行“流程银行”转型消失匿迹:起于“效率效能”,止于“部门边界” 事业部的成功与失败? •生产力充实了生产关系的事业部成功了 科技范畴 •数据 •技术 业务范畴 •新市场: •新客户: •新业务:创新产品服务 转“数字化银行”转型应运而生:内外因结合,科技与业务并举,划清部门边界 型 电子银行 •效率效能 外 内 •从规模导向到价 因 因 值导向、精细化 导向 •新技术革命 •互金的跨界冲击 •客户的觉醒 •疫情 部门边界 数据、人员分配边界合理、清晰 电子银行部的成功与失败? •理论上,没有任何一个业务属于电子银行部; •实践上:好像什么都能做,但没有什么自己能说的算 •明确边界:渠道—平台—生态 CONTENTS 06数据信托助力大模型 06 数据驱动业务的发展的逻辑 第一阶段第二阶段第三阶段 商圈的数据与金融圈的数据各自相对独立发展 商圈的数据孤岛 金融圈的数据孤岛 支付产生了“跨界”效应 支付使得商圈有了金融圈的数据 就形成了互联网金融业务 一浪:互联网平台主导 “标准码”规范支付入口 “断直连+征信持牌”规范数据使用 二浪:持牌金融机构主导 06 数据驱动模型与算法发展的逻辑 智能风控领域模型算法的发展: 专家评分卡→逻辑回归→集成学习、深度学习 第一阶段规则驱动 第二阶段规则+数据驱动 第三阶段大数据驱动 规则驱动 多采用专家打分卡模型 三个阶段 依赖专家经验 优点: 经验与数据驱动 优点: 优点: 大数据驱动 可解释性强 缺点: x维护成本高 x对专业性要求高 准确性高 客户体验好 缺点: x无法判断未知风险 复杂风险模型快速识别 缺点: 规则+数据驱动 多采用逻辑回归与高维逻辑回归算法 x对系统稳定性与速度要求高 评分规则模型 大数据驱动 多采用集成学习与深度学习模型 逻辑回归模型 高维回归模型 集成学习模型深度学习模型 06 数据要素化的发展逻辑 数据与生俱来的是: 具备三重属性:资源属性、技术属性、金融属性。 数据与众不同的是: 价值的特殊性:数据价值不在于数据本身,数据价值来源于数据的技术加工,体现于数据的权益支配。 数据与日俱增的是: 数据要素的外部性对促进数据价值交换的数据要素市场化的客观需求。 发展逻辑 数据的与生俱来、与众不同、与日俱增,共同决定了数据形态变化必将遵循: 1.由数据记录到数据资源、 2.由数据资源到数据资产、 3.由数据资产到数据要素、 4.由数据要素到要素市场化 3 由特定主体合法拥有或者控制 2数据资产价值必须可以