建设银行隐私计算实践介绍 演讲人:杨俊 建行上海大数据智慧中心 Contents 目录 外部数据使用历史 隐私计算早期探索 (2020-2021) 隐私计算需求井喷 (2022-2023) 企业级隐私计算平台搭建 外数数据定义 外部数据指为满足业务发展需要从本行外部获取的支持客户营销、风险管控、管理决策、产品创新、运营优化以及监管合规的数据、分析报告及资讯信息等,包括但不限于采购、合作等方式获取的数据,以下为市面上常见的一些外部数据源。 工商 环保 法院 海关 公安 税务 外部数据管理模式据管理式 外部数据管理模式 全行集中统筹管理 一、集中管理,总行对外部数据的需求、预算、采购、费用执行、数据接入和数据共享应用全流程统一管理 二、分行自主,分行区域性外部数据给予分行一定自主权,允许自行采购和费用执行 三、充分共享,所有外部数据(包括区域性外部数据)统一接入外部数据管理组件,全行共享 外部数据引入和应用模式 政府机构 实时联机查询 •外部数据管理组件发布外部数据服务,业务组件在取得授权的情况下实时调用服务。基本都是嵌入业务流程或者模型中伴随业务办理调用,是当前外部数据主流模式。 数据来源 事业单位 批量数据传输 •根据下游业务组件用数需求,通过数据仓库按照指定频率推送全量或者增量数据表。适用于批量企业公开数据。 实时联机查询 互联网 央企国企 批量数据传输 网络专线 征信公司 联合建模服务 本地化 数据公司 外资企业 平台自助查询 •业务人员登录我行外部数据管理平台或者外数慧查,通过平台查询界面查询数据,全为我行整合后的企业公开数据。 计批量数据传输模式:采用包年计费模式,不限费量使用。 模实时联机查询模式:按条计费、查得/查询计费、式按条计费并封顶等方式。 用数方式 自2018年4月以来,信用卡条线应用多项外部数据,应用范围覆盖信用卡客户 外部数据嵌入信用卡业务全流程中 审批、客户识别、伪冒欺诈、审批、交叉销售、风险预警。 生命周期的六个环节:预 资产类— 公积金、社保、 个税 补充预审批库 风险类— 风险评价数据 排查高风险客户 行为偏好—车辆数据、车险数据 精准定位营销商机 风险类—企业司法涉诉数据 预排查高风险客户 客户属性—运营商数据 客户身份验证 学历学籍、航旅、FICO 客户辅助增信 信用卡客户生命周期 联合建模-数据融合应用 新场景应用 在隐私计算出现前,联合建模是银行通过机器学习建模方式引入外部数据、探索新产品、新场景应用的重要方式,通过与政府机构、公共事业、运营商、头部电商等可信外部数据源进行联合数据探索和数据挖掘,确保双方数据安全、开展模型研发、创新数据价值变现的一种外部数据应用新模式。 数据隐私保护 政府 外部合作方 电商平台 社交平台 需求方 总行业务部门分行 2022年联合建模整体情况合 2022年,上海大数据智慧中心支持总行普惠部、数字化工厂、乡金部等5个业务部门及浙江、湖北2家分行开展了联合建模项目。 外部数据源提供指标变量X我行提供目标变量Y 隐私计算技术应用背景 国家战略发展要求 企业自身发展要求 国家倡导在数据安全的基础上,激活数据应用价值 2020年4月,国务院首次将数据与土地、劳动力、资本、技术并列为五大生产要素,同时指出要加快培育数据要素市场,推进数据开放共 享、提升数据资源价值、加强数据资源整合和安全保护。 合规安全是数据应用的基石 数据安全属于国家安全、公共安全、经济安全和社会稳定,各国均在加强数据安全立法和标准制定。安全合法合规是挖掘数据价值的底线。 个保法 2021年 数安法 2021年 民法典 2020年 我国近年相关立法 密码法 2020年 网安法 2017年 数据融合应用是激活数据价值,实现价值创造的重要能力。由于数据作为金融机构的核心资产,安全性至关重要,明文数据融合愈发不可行,各个机构形 成“数据孤岛”。安全地进行数据开放共享,对于银 银行业金融机构数据治理指引 金融安全分级指 南 监管机构相关规范和要求 数据生命周期安全规范 行的产品创新、营销获客、风险管控、集团一体化等均具有重要意义。 早期探索(建行&建信基金)-1 •成立于2005年,建信基金深耕基金投资领域,积累了相对全面的基金相关数据,对建行数 据是有益的补充; •然而,母子双方互为独立法人,受限于隐私保护,无法直接进行数据交换和融合; •联邦学习应运而生,实现了在保护参与方各自数据隐私前提下的跨多方模型训练,为母子双方开展数据融合创造了可能。 建设银行 •累积超8亿个人客户 •大数据平台超5000个客户标签,覆盖存款、信贷、消费、投资等领域 建信基金 截至2020年7月,共有近500个特征标签,覆盖超过4000万个人客户,其中建行客户近1300万。 早期探索(建行&建信基金)-2 FATEGuest (建行P10) 10Mbps专线 Exchange服务 (建行P5) FATEHost (基金) 联邦学习思想 打破数据孤岛,在各数据参与方不泄露本方客户数据和不违反国家数据保护法律法规的前提下,进行联合的机器学习模型训练,同时模型效果与将各方数据集中在一起建模保持一致。 联邦学习价值 在保障各方客户隐私和数据安全的前提下,带动跨领域的企业级数据合作,催生联合建模的新业态和新模式。 应用进展 1:使用FATE开源联邦学习框架。 2:通过现有网络专线打通双方数据环境。 3:与建信基金就业务目标达成一致,针对高净值、临 建行-建信基金联邦学习架构 界、长尾、休眠、流失客群分别开展客户提升模型建模 早期探索(建行&建信基金)-3 1 2 .联邦学习采用了集成树SecureBoost算法,集成15~30棵树; .在建行单边模型效果已经较好的前提下,联邦学习模型效果全面优于建行单边模型。在基于9月数据、10月表现的评分集上,AUC平均提升10.4%,最高提升41.2%,KS平均提升58.1%,最高提升 248%。 3. 在评分前5%客群,联邦学习模型普遍优于建行单边模型,随着客户范围扩大,优势有所下降。其中,休眠模型始终大幅领先。 早期探索(建行&建信基金)-4 •整体购买情况:12月14日至21日,共有46807位客户购买速盈,申购金额13.08亿元,营销响应率4.97%; •模型对比:联邦学习客群营销响应率为5.33%,其中模型评分前5%客户的响应率为7.35%,比建行单边模型评分前5%客户的响应率(5.47%)高34%。 •对照组:联邦学习客群营销响应率比 对照组高11%。 •分客群:联邦学习高净值客群响应率达10.3%。 双方数据均不出自己环境的前提下,完成机器学习模型训练 中心隐私计算框架部署 双方名单均不泄露的情况下求交集用户 多方安全计算 (MPC) 保障双方数据隐私的前提下,打通数据进行统计分析 隐私特征补充 能源 本地模型 联邦学习 加密参数交换 隐私求交 联合统计分析 运营社保 商外部数据 标签不可还原 加密样本匹配 查询方查询条件不可获取 匿名查询同态加密 银行税务 ID不被泄露 不经意传输 多方基础运算 隐私建模 数据方数据不可交换 隐私计算业务场景-1 建信基金 建信基金全生命周期客户精准营销联邦学习 A-非货币类活跃客户 B-非货币类长尾客户 C-现金管理类活跃客户 D-现金管理类长尾客户 E-纯非货币清仓客户 基于隐私计算框架支持大数据分析需求 (截止2023年5月): 高净值 大数据项目 临界长尾休眠流失 B->A 转化模型 C类->A/B类客群提升精 准营销联邦学习模型 建信人寿 D->C 转化模型… 综合个人养老、长期险、团体险客户营销 建信信托 代理人存量客户精准营销 1、联邦建模 2、安全求交 3、匿踪查询 4、安全计算 建信信托信贷、股权和债券主体客户评级分布建信养老 项目成果交付形式: 1、模型 2、清单 3、数据查询 4、分析报告 基于隐私计算的大数据模型项目 其他项目 面向个人年金和TA客户的个人养老金营销 美团 美团商户快贷准入及授信模型 基于隐私计算框架支持大数据需求 2021年以前 2022 隐私计算业务场景-2 ★建信基金--非货长尾客户精准营销 安全求交,构建模型,行内营销。 数尾立内 基于建行与建信基金双方的客户据,开展基于母子联邦的非货长客户的精准营销大数据项目,建营销模型,产出客户清单,在行推送至对私组件,进行营销。 ★建信人寿—代理人存量客户精准营 安全求交,安全计算,构建模型, 销 寿联营产关 子公司营销。基于建行与建信人双方的客户数据,开展基于母子邦的建信人寿代理存量客户精准销大数据项目,建立营销模型,出客户清单,推送至建信人寿相组件或app,进行营销。 建立宽表安全求交 ★建信信托--信贷、股权和债券主体客户评级分布 安全求交,匿踪查询,分析报告。 基于建行与建信信托双方的客户数据,开展三类主体客户的匿踪查询,通过撞库后获取共有客户,针对部分字段开展基于客群分类的匿踪查询。 联邦建模 营销清单建模 隐私求交 隐私计算 分析报告 隐私计算业务场景-3 ★建信养老--个人养老金精准营销 安全求交,行内营销。 数老老户进 基于建行与建信养老双方的客户据,开展基于母子联邦的建信养个人年金客户和TA客户的个人养金精准营销大数据项目,产出客清单,在行内推送至对私组件,行营销。 ★美团—美团商户快贷准入及授信模 安全求交,构建模型,惠懂你部署。 型★其它2023年正在推进中的外部公司 ,入度 。 基于建行与美团双方的客户数据开展基于联邦的美团商户快贷准及授信模型开发,建立准入和额模型,产出模型并部署至惠懂你 建立宽表安全求交 安全求交,匿踪查询,安全计算,构建模型。 其它建行子公司、多家支付机构、多地运营商、互联网公司等。合作场景包括反赌反诈、精准营销、精准风控等。 联邦建模 建模 03 建行企业级隐私计算平台建设 平台 提下,合运算心数据构间的同金融 按照“平台化、场景化、 标准化、生态化”的思 路,进行技术研究、平 台建设、场景落地。 面向建行业务应用需求, 打造企业级数据共享安全 建设原则 计算平台,实现数据的可 用不可见,激活数据价值, 助力业务数字化发展。 在保护各方隐私的前 实现联合查询、联 、联合建模多种核 融合功能,支持机 数据隐私共享及不 场景的应用建模。 02 01 营造数据“取之有据、用之有道、护之有术”的良性数据生态,打造“金融无界、数据有界”的护城河。 隐私计算平台设计原则 企业级架构为基础 全面整合联邦学习、多方安全计算等技术路线,支持联合查询、联合计算、联合建模、存证审计等丰富功能,支持建行集团内外部各机构快速部署,便捷使用。 价值创造为目标 在打造平台的同时,通过积极探索新的业务模式来扩展外部数据连接,解决数据供给侧和需求侧匹配的问题,推动建设机构间数据交易网络与数据共享生态,促进数据有效融通,实现业务价值。 满足监管合规要求 遵守《数据安全法》、《网络安全法》、《个人信息保护法》等法律法规,遵照上级金融监管单位的监管要求,确保业务合法合规。 实现高等级数据安全 基于隐私计算和密码学底层算法,在确保“数据不出域”的前提下,实现数据“可用 不可见”,充分发掘跨机构数据在银行风控、营销、监管等场景的价值。 数据管理 -指标体系 模型管理 服 务 层模型1模型2模型3模型4 隐私计算平台架构 应 用层 金融应用 行业应用 企业智能生态圈 互联网+政务 智能风控 审批授信 营销获客 精准画像 企业成长性 资产流动性 管理水平 企业家因素 行业地区影响因素 盈利能力 偿债能力 营运能力 企业规模 宏观经济影响因素 联合 查询 联合 运算 联合 建模 算 法层 基础功能 密码算法 区块链存证 数据目