您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[极客传媒]:大模型下的多模态智能风控落地实践 - 发现报告
当前位置:首页/行业研究/报告详情/

大模型下的多模态智能风控落地实践

信息技术2024-08-17王小东极客传媒周***
AI智能总结
查看更多
大模型下的多模态智能风控落地实践

大模型下的多模态智能风控落地实践 王小东 新希望金科AI中心总经理 2024.08.17 大纲 1大模型下金融风控面临的新问题和挑战 2大模型下金融风控破局之道 3基于大模型的多模态智能风控解决方案 4基于大模型的多模态智能风控应用案例 5总结与未来展望 现有风控存在的问题 1、欺诈手段层出不穷 中介代接听,代理维权。 AB贷。 反催收。 2、团伙作案更加难以发现 黑产/中介攻击手段升级,如:不同设备,不同联系人,不同场所等。 短时内呈现同GPS下身份证背景/人像背景/人脸/声纹等的高度聚集。 3、模型性能出现瓶颈 模型KS提升有限。 入模特征主要依赖结构化数据。 建模方法传统。 4、AI欺诈手段日益高明 AI换脸/换声。 数字人。 视频生成。 电子头。 高保真面具。 金融信贷核心面临的新型AI风控问题 1 高逼真的生成式AI技术:实时AI换脸+头发分割+换衣+换背景绕过摄像头采集,注入视频流实施攻击,深度伪装人的声音/图像/语言/视频,算法精度高,处理速度快,配合屏幕打光和高清显示屏等。除了人脸,还有身份证生成,房屋照片生成,各类贷款产品需要的材料生成造假等。 2 智能对话能力:利用ASR识别客户说了什么,利用LLM语言大模型,实时和用户实现智能对话,准确理解意图和生成回复内容,利用TTS实时合成生成内容读给客户听。 3 语音生成能力:以语音大模型为基座,基于5秒/更长语音训练个人音色,并使用声音克隆技术复刻个人音色。支持将文本转换成富有感染力和真实性的语音,支持情绪,语调的声音合成技术,使信息传达更加生动有力。 身份证风控案例 身份证脏 身份证字体造假 身份证贴纸 身份证黑白边框 身份证水印 身份证污垢 身份证缺角 身份证弯曲 身份证风控案例 身份证拼接 人像替换 身份证阴影遮挡字 身份证贴字 身份证翻拍 身份证彩印 身份证压线 身份证PS 人像风控案例 攻击手段层出不穷,技术升级迫在眉睫 此处不公开 照片挖孔圆筒面具3D面具手机翻拍深度伪造AI换脸T型眼镜打印照片 此处不公开 此处不公开 AI换脸、换声、视频生成、数字人等AI攻击案例 3D面具电子头 此处不公开此处不公开 数字人Sora生成 此处不公开此处不公开 此处不公开 AI实时换脸和换声攻击案例 生成式大模型引起的新型金融风险挑战总结 造假成本低 生成式AI技术出现前合成视频,合成人像等需要在淘宝、京东等电商平台或黑产平台花几十上百元,生成式AI技术出现后0成 本。 生成式AI出现前需要专业的PS人才,视频编辑人才等才可以批量生成伪冒身份材料,生成式AI出现后只需要会提示工程/简单微调/使用AI工具便可以完成。 生成内容丰富 身份证类型可生成几十种类型。 人像可生成几十种类型。 声音可生成几十种。 其他金融领域证件材料都可多样化生成。 …… 生成类容逼真度高 AI换脸以假乱真。 AI换声模拟声音真假难辨。 AI换头发模拟发型。 AI试衣模拟穿着。 AI换背景模拟环境。 …… 大纲 1大模型下金融风控面临的新问题和挑战 2大模型下金融风控破局之道 3基于大模型的多模态智能风控解决方案 4基于大模型的多模态智能风控应用案例 5总结与未来展望 大模型+MaaS+RTC是否可行? 大模型 智能客服 智能催收 智能助手 智能营销 智能面签 智能风控 智能反欺诈 代码Review 舆情助手 语音机器人 法律文书生成 风险报告生成 内容审查助手 金融数字人 代码助手 …… 音视频通讯能力 音视频编解码 音视频传输 音视频录制 音视频加密 音视频合成 水印时间戳 屏幕录制 共享、白板 远程协助 智能打点标注 截屏、抓拍 签名 即时消息 合同阅读 多人视频 …… MaaS 大模型 小模型 模型开发 模型微调 模型编排 模型发布 模型集市 基础模型 模型管理 …… 大模型不只是生成式AI CV大模型 Midjourney和StableDiffusion等 NLP大模型 ChatGPT VS 多模态大模型 VisualGLM/QwenVL等 相同点不同点 参数量上10B的模型。 模型都可以对结构化非结构化数据进行高维参数表达,达到可计算。 基本都是基于Transformer这种架构的不同网络结构变种设计和构造。 生成式大模型是大模型中的一种,主要进行文本,视频,图像的生成。 生成式大模型生成的内容不可控,不精准很难在金融风控中应用。 非生成式大模型,以概率输出的大模型可在金融领域参与策略决策和应用。 大模型解决风控技术方案 方案1生成式:对话问答生成标签实现方案2非生成式:训练模型概率实现 方案1不公开 大模型+小样本微调快速开发成为风控破解之道 痛点大模型解决 正负样本积累至少1W+。 写不同神经网络代码构建模型,模型不通用。 模型开发周期长,模型区分能力弱精度不高。 模型推理代码,模型建模代码不规范不统一,难以维护。 正负样本100+。 模型主干网络统一,Head层不同。 模型开发周期短,半天内开发一个模型。 模型推理,建模代码统一。 MaaS平台成为模型快速上线之道 基础模型开发 模型编排 模型部署 模型服务 模型资源丰富,主流Huggingface,Modelscope,PaddleHub等模型平台集成。 基础模型丰富,如VGG, Resnet等。 模型开发快,可视化开发微调。 模型原子服务快速编排新模型服务。 模型原子接口可视化、配置化组装大接口。 大小模型接口协同。 模型Docker虚拟化自动部署。 模型部署流程一键快捷部署。 模型开箱应用真实化测试。 模型测试结果可视化。 模型可共享。 服务可监控。 模型可回退。 视频流+大/小模型成为风控破解之道 此处不公开 此处不公开 视频流技术目前主要应用在视频通话,视频双录等金融业务中。 AI高逼真造假识别,基于单帧RGB图像很难识别。 基于多帧视频流建模,识别人像中上下帧差异,证件被编辑,眼球反光,边框,摩尔纹等细节特征完成真假甄别。 基于大模型+小样本微调+MaaS平台快速开发小模型,配合视频流技术提升风控能力。 大纲 1大模型下金融风控面临的新问题和挑战 2大模型下金融风控破局之道 3基于大模型的多模态智能风控解决方案 4基于大模型的多模态智能风控应用案例 5总结与未来展望 视觉风控基座大模型研发:数据准备 UncuratedDataAugmentedCuratedData 此处不公开 CuratedDataEmbeddingDeduplicationRetrieval 用视觉经典网络计算图像Embedding,使用Kmeans聚类,从人像、身份证、房屋、流水、结婚证、经营场所等未标注数据中检索出与精心整理过的数据集中存在相似度很高的那部分样本。最后,给定一个查询图像,从查询图像所在的聚类中检索出N个最相似的图像用于网络训练。 在数据去重和图像检索阶段,依赖Milvus等向量数据库进行高效近N个Embeddings计算。 视觉风控基座大模型研发:模型训练 1 此处不公开 Dinov2 Dinov1 图像级损失(Image-levelobjective):利用一种交叉熵损失函数来比较从学生和教师网络中提取出的特征。这些特征都来自于ViT的clstoken,通过对同一图像的不同裁剪图像进行提取得到。使用指数移动平均法(EMA)来构建教师模型,学生模型的参数则通过训练得到(DINO的方法)。 2 Patch级损失(Patch-levelobjective):随机遮盖一些Patch输入给Student,Teacher 不遮盖,计算在遮盖的Patch上特征的交叉熵损失函数。 3 Sinkhorn-Knoppcentering:使用SwAV中提到的Sinkhorn-Knopp(SK)BatchNormalization来代替DINO和IBot中的teacher网络中的softmax-centering步骤,对Student进行3次Sinkhorn-Knopp算法迭代,再使用Softmax进行Normalization。 视觉风控基座大模型:子模型微调框架 预处理 模型框架 特征层 头部网络 输出 xx1 视觉 大模型 xx2 自研大模型 通用大模型 人脸大模型身份证大模型 …… 池化 特征模块 序列 卷积 头部模块 全连接 激活 将自主研发的视觉风控基础大模型,并将视觉大模型xx1,xx2等集成在平台里,同时集成Resnet50,Alex,Vgg,MobileNet, Yolo,GoogleNet,DenseNet,ShuffleNet等主流图像分类和检测小模型。 基于算法模型识别时样本量,精度,模型推理资源等要求,用户可以选择不同的视觉基础模型,基于模型微调完成图像子任务的开发,并能以概率的方式输出模型结果。 视觉风控大模型+微调生产子模型 可视化微调 此处不公开 指令微调 pythontrain.py\ --input“imageInputLayer”\ --base_model“cv_big_model”\ --convolition“convolition2dLayer”\ --fc“fc”\ --class“softMax”\ --model_path“./models/face_abnormal”\ --model_type“cv”\ --output_dir“./checkpoints/”\ --max_source_length100\ --max_target_length100\ --per_device_train_batch_size4\ --per_device_eval_batch_size4\ --gradient_accumulation_steps16\ --max_steps100\ --save_steps50\ --eval_steps50\ --learning_rate2e-4 视觉风控大模型+微调提升风控能力 模型 人像翻拍 打印 裁剪 身份证断裂拼接 基座模型 流水遮挡 通用大模型人脸大模型身份证大模型 房屋大模型 AI换脸 车辆大模型证件大模型流水大模型伪造大模型 模型微调 结婚证 证件房产证 AI换证PS 电子头 T型眼镜 字体大模型版面大模型PS大模型…… 指令微调 平台微调 车产证房屋经营地 …… OCR 马赛克水印裸体 人像背景证件背景微表情眼球 …… xx1xx2VggAlexNetDenseNetShuffleNetMobilenetResnet50Yolo ResnetGoogleNet …… 语音风控大模型+微调提升风控能力 语音大模型的模型思路和视觉一样,差异在于先将语音转成频谱图后,再利用视觉建模能力。质量检测 克隆音大模型 重放音大模型 合成音大模型 通用大模型 噪音检测 基座模型 语音分类 合成攻击 语音重放攻击模仿攻击 模型微调 指令微调 Resnet Vgg xx2 xx1 平台微调 …… Yolo Resnet50 Mobilenet GoogleNet ShuffleNet DenseNet AlexNet 拼接攻击 对抗攻击 …… 大模型+微调开发子模型实践 原有模型开发 基于大模型模型开发 样本 10000+ 数据标注 1月+ 开发模型 14天+ 模型上线 7天+ 模型业务代码 1月+ 模型精度 95% 模型推理 任务多耗时长 小样本 无法开发模型 样本 100+ 数据标注 0.2天