隐私计算在金融行业反欺诈等场景的应用 工商银行金融科技研究院 金融欺诈是用户主观、以非法占有为目的,采用虚构事实或隐瞒真相方法,骗取他人财物或金融机构信用,破坏金融管理秩序的行为,包含:电信诈骗、信用卡申请诈骗、信用卡盗刷、伪冒身份开卡等等诈骗行为。 2021年3月5日,《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要(草案)》。 2021年10月13日,《中国人民银行关于加强支付受理终端及相关业务管理的通知(银发〔2021〕259号)》。 2022年4月18日,《关于加强打击治理电信网络诈骗违法犯罪工作的意见》 2022年9月2日,《中华人民共和国反电信网络诈骗法》 国家法规和政策重视 公安部:“长城”“云剑”“断卡”“断流”等专案行动,破获电信网络诈骗案件26.2万起,抓获犯罪嫌疑人37.3万名。 人民银行:治理异常银行卡14.8亿张,专项检查130余家金融机构,暂停620家银行网点开户业务。 监管和有权机关管控 银行负有保护客户信息、账户安全,确保交易为本人操作的法律责任。 银行为优化经济资本配置需要减少欺诈风险导致损失。 大中型银行负有保障客户资金安全的社会责任。 银行自身经营要求 近年来,银行已纷纷建立了企业级的反欺诈体系,在机构内数据统一共享的基础上实现覆盖业务前、中、后各环节的智能反欺诈防控。然而,仅使用自身数据,仍然存在数据不完整、数据不全面、数据不及时的问题。隐私计算技术,为数据要素的有效流通提供了必要手段,正在为金融行业的反欺诈构筑新的体系和生态。 ... 电子银行 信用卡 自助终端 深度学习 知识图谱 实时干预 专家规则 BANK 申请密码交易 ... 审批认证核查 完整性:隐匿查询支持查询同业欺诈评分 全面性:纵向联邦从运营商、互联网公司引入更全面特征 及时性:区块链支持名单信息不出机构实时共享 个金专业 信用卡专业 专家规则监控为主 依赖于密码验证身份和事后人工核查 各专业部门单线作战 规则模型结合智能化防控 业务办理前中后全环节防控 名单、特征等风险信息统一共享 电子银行专业 3.0跨机构跨行业反欺诈生态正在形成 2.0企业级反欺诈体系 1.0矩阵式联防系统 隐私计算(Privacy-PreservingComputation),是指在提供隐私保护的前提下,通过协作对多方的数据进行机器学习和数据计算分析,实现数据价值流通的技术解决方案。隐私计算并不是一种单一的技术,它是一套包含人工智能、密码学、数据科学等众多领域交叉融合的跨学科技术体系,满足了数据的可用不可见、使用权与产权分离等要求。隐私计算技术解决方案包括联邦学习、多方安全计算、可信计算、区块链等多种技术,在实际应用中根据实际场景需要将技术进行组合使用来满足隐私保护的要求。 联邦学习 2016年由谷歌提出,在不上传手机终端的隐私数据(输入内容)前提下,完成输入法的联合模型训练。 解决如何在保护隐私的情况下,完成AI模型训练。 多方安全计算 x x>y? 可信计算 y 多家芯片厂商相继推出了基于硬件的可信计算方案,如ARMTrustZone,IntelSGX等。 如何在飞地条件下,保障数据、算法 等不泄露、不被窃取,使得信息产权 区块链 交易流程存证 数据存证 区块链 节点 智能合约 区块链节 点 区块链 节点 智能合约 智能合约 任务存证 源于1982年姚期智提出的百万富翁问题1,在没有可信第三方的前提下,比 较出谁更富有。 与使用权能够分离。 权属变更存证 算法哈希存证 如何在保护隐私的情况下,完成统计分析。 防止过程中数据别篡改等恶意行为。 全流程可信计算系统 通过引入满足隐私保护要求的技术解决方案,可构建一个算前、算中、算后的可信、可审计的数据要素流通新模式。 区块链:数据上链流通,防篡改;交易过程上链,可监管、可审计。 可信计算:所有节点基于可信计算环境实现,确保数据和算法用后销毁、不被复制。 多方、联邦:原始数据不动,参数和计算动,确保隐私和数据资产保护。 计算前 可利用联盟链技术的防篡改性保证计算数据的真实性、一致性; 计算中 可利用隐私计算技术确保参与运算数据的隐私性,以及运算结果的准确性; 计算后 可利用联盟链技术可溯源性,便于监管机构对计算过程的审计、审查。 结合业界技术发展态势,工商银行较早启动了隐私计算技术体系规划,积极开展隐私计算技术研究,通过商用产品+自研的方式,建设了联邦学习、多方安全计算技术平台,打造隐私计算服务能力,实现数据“可用不可见、可控可计量”能力,赋能全行业务创新发展。 2017 多方安全计算平台 联合统计 任务调度 隐匿查询 计算合约 隐私求交 资源管理 业务场景 + 隐私计算技术 ............... 区块链 P2P网络共识算法智能合约账本存储 运营管理 风险管控 对客服务 产品创新 2022 2021 启动隐私计算技术研究和批 评他建设 2020 联邦学习平台 联邦特征工程 联邦任务管理 联邦学习工具 联邦合约管理 联邦建模 系统资源管理 联邦预测 ............ 推进隐私计算规模化应用,并计划建设可信计算技术,丰富隐私计算能力,提升数据流通效率。 年初通过商用产品结合自研的方式建设了联邦学习、多方安全计算技术平台 一、背景和方案 背景 运营商层面特征具有一定前验性:分析公安部通报案件发现诈骗分子的异常行为在运营商侧更为提前 (如更换手机设备、异地联网等),可以帮助我行提前发现风险事件。 企业欺诈特征无法直接输出:欺诈特征涉及大量隐私数据,无法通过明文方式直接共享数据。 方案 应用联邦学习技术,联合工行侧样本标签以及近百个样本特征,以及运营商侧超50个数据特征,在数据互不出库的基础上建立工行手机银行登录行为异常识别模型,旨在通过本次数据合作验证提升行内模型效果,更早地抓出可疑客户,并为进一步分析欺诈风险和优化反欺诈模型提供决策支撑。 工行反欺诈系统 联邦模型训练 联邦模型训练 手机银行请求反欺诈检测 反欺诈检测 100多个交易特征、客户标签 电信 50多个通信特征 联邦模型预测 联邦模型预测 禁止登陆手机银行,提示转柜面办理业务 欺诈风险评分 联邦学习平台 客户登录手机银行 二、建模过程 工行侧:样本标签、境内交易特征、境外交易特征等 运营商侧:通信特征等 行内样本集与运营商数据集对齐 在样本对齐后,将交集拼上数据时间;其中工行用户登陆日期,运营商为数据发生日期 拼上日期后的数据再次求交对齐 各自获得样本和打标时间交集并各自线下补充和加工相关特征 采用基于lightgbm的纵向SecureBoost,使用双方特征和工行标签共同训练模型 本地数据准备第一次隐私求交第二次隐私求交纵向联邦训练 三、模型效果评估 四川地区TOP100较只用行内特征准确率提升30%(从7%提升到10%),TOP300查准同比提升20%(从5%提升至6%) 特征重要性前10中,电信指标有2个,分别在3、4,前20中有4个,前30个中有9个。电信指标价值较高的8个,具体如下: 特征重要性排序 字段英文名 字段中文名 4 online_N 在网特征N 14 type_N 设备特征N 20 call_N 通话特征N 21 f_N 联系人特征N 22 type_M 设备特征M 23 call_M 通话特征M 24 call_O 通话特征O 26 call_P 通话特征P 电商欺诈 刷单党 羊毛党 外挂党 电商平台 金融数据 黑产社区 杀猪盘 网络赌博 金融数据 社交平台 电信诈骗 钓鱼网站 诈骗短信 金融数据 通信运营商 诈骗名单 隐私计算 开放银行服务 监管机构、有权机关 诈骗情报 实时查、冻、扣 金融数据 消费数据 社交数据 终端数据 金融同业合作 依托隐私计算技术,在金融行业内部有望形成“联盟式”欺诈防控合作体系;同时,金融行业和电商平台、社交平台、通信运营商等也可形成跨行业的互惠互利反欺诈生态。 企业、个人 贷款申请欺诈电子银行反欺诈 信用卡套现欺诈风险布控 冒名开卡风险后评估 打击团伙诈骗 高净值潜客挖掘 外部公司沉淀有我国经营企业、担任企业高管等高价值人群信息。 通过隐私计算方式,安全引入外部关于公司法人、高管、股东的数据等,实现对我行客户的财富等级标注,挖掘高净值客户、积累高质量客群。 安全共享 集团客户财富管理 运用联邦学习技术,在依法合规的前提下实现集团视角下客户资产结构的联合统计,全面反映我行客户综合资产情况,全面、准确洞察客户,建设客户集团资产画像,推动集团内部信息共享和业务协同。 精准营销激活沉睡客户 通过隐私计算技术拉通互联网企业进行合作,分析全行非活跃用户(绑卡+未绑卡);同互联网渠道全量用户,进行关联分析 ;精准筛选待投放、待激活用户群。助力对沉睡卡客户通过网上购物付费优惠营销方式,激活我行沉睡客户。 普惠金融小微商户贷 利用联邦学习技术建立与银联的数据合作,拓宽商户场景服务面。充分利用银联的支付交易特征,及行内已有征信 、流水等丰富风险画像 ,构建全新的场景风控体系:打造了商户违约预测模型,“刷单套现”精准识别模型; 11 加快推进关键技术发展,助力数据要素流通 •硬件加速,提高计算性能 •加强可信隐私计算研究,提升安全性 •推进互联互通,破解”技术孤岛“ 数据交易所模式快速发展 基于数据交易所,形成更加活跃和高效的跨行业、跨机构数据流通与合作。金融机构可以借助隐私计算,实现数据要素内外循环,提升数据要素价值挖掘和应用能力。 隐私计算重塑数据使用模式 技术发展 数据生态 社会发展 数据流通将更加便捷,从而推动各行业业务模式升级优化。 •行业内形成数据与算法的合力,推进行业更快速发展,例如医疗水平、金融服务效率大幅提升。 •跨行业数据与算法的融合,碰撞出新的业务模式。 谢谢