金融业隐私计算联合建模技术与应用研究 北京金融科技产业联盟 2023年11月 本报告版权属于北京金融科技产业联盟,并受法律保护。转载、编摘或利用其他方式使用本报告文字或观点的,应注明来源。违反上述声明者,将被追究相关法律责任。 编委会成员: 何军聂丽琴薛勇 编写组成员: 王润元 张翼飞 袁鹏程 王云河 王礼斌 曹伟 昌文婷 果伦 陈琨 单进勇 黄翠婷 王湾湾 黄文 邱晓慧 李晶晶 金银玉 张育涵 田江 王鹏 卢春曦 洪爵 靳晨 张垚 王健宗 胡师阳 叶展豪 黄一珉 时代 朱礼 李武璐 卞阳 何浩 蔡超超 陈浩 张志慧 统审: 黄本涛 郭栋 刘宝龙 参编单位: 中国银行股份有限公司 华控清交信息科技(北京)有限公司蚂蚁科技集团股份有限公司 深圳市腾讯计算机系统有限公司北京数牍科技有限公司 深圳市洞见智慧科技有限公司光大科技有限公司 上海富数科技有限公司网联清算有限公司 北京银联金卡科技有限公司中国工商银行股份有限公司中国农业银行股份有限公司中国建设银行股份有限公司中国民生银行股份有限公司 深圳前海微众银行股份有限公司建信金融科技有限责任公司 北京百度网讯科技有限公司深圳壹账通智能科技有限公司北京融数联智科技有限公司上海光之树科技有限公司 华为技术有限公司 百行征信有限公司 深圳长亮科技股份有限公司 目录 一、发展综述1 (一)联合建模概念探讨1 (二)技术发展历程及驱动力6 二、国内外实践情况13 (一)国外应用情况13 (二)国内应用情况21 三、支撑联合建模应用的隐私计算技术体系42 (一)隐私计算技术体系简述43 (二)隐私安全技术当前面临的主要问题及参考解决方案56 (三)主要建模技术对比分析61 四、联合建模通用技术平台参考框架65 (一)联合建模通用技术平台建设的目的与意义65 (二)联合建模通用技术平台的技术架构参考66 (三)联合建模通用技术平台非功能指标与设计参考79 (四)联合建模通用技术平台关键机制91 五、联合建模应用分析100 (一)联合建模应用场景分类与特征细分100 (二)联合建模的应用场景的其他分类方式119 六、发展与建议122 (一)当前技术与平台挑战122 (二)未来技术与平台的发展趋势125 (三)未来应用场景展望与建议127 参考文献129 一、发展综述 (一)联合建模概念探讨 1.联合建模的含义 近年来,“联合建模”伴随“数据要素化”“隐私安全”、多方计算等热点领域的研究与应用,不断涌现在各类媒体和大众面前,然而,“联合建模”作为一个专业词汇至今尚无一致的、明确的标准定义。 从字面观其内涵,“联合建模”由“联合”和“建模”两个关键词有机组合而成。 “联合”意指多方共同参与,是完成“建模”的环境和条件。“多方参与”既表示“多方数据”的参与,又表示“建模”过程有不同角色的多个构建方(包括:数据供给方、数据加工方、数据消费方和收益方、数据联邦运营方及管理部门等)。其中,“多方数据”的参与是“联合建模”的前提约束,是“联合建模”的核心要素。如果没有“多方数据”的参与,即使存在多个构建实施方,也多是为了解决资源缺口、专业能力缺口、效率不足与合作伙伴契约关系等项目实施与管理过程问题而采取的分工协作方式。这里的“多方数据”是指“建模”过程的数据集必须由属于多个不同“数据所有权”的数据集组成。同一数据所有权范围内的不同领域数据的集成与加工,应纳入常规“大数据应用”或“机器学习建模”范畴讨论,非本报告主要的研究和论述对象。 (注:文中如不特别指出,“多方数据”均指多方不同数据所有权的数据) “建模”意指构建“模型”的行为,是数据“联合”的目的和价值体现。其中,模型泛指对于某个实际问题或客观事物、规律进行抽象后的一种形式化表达方式。这种形式化的“抽象”表达主要包括“数学模型”“程序模型”“数据模型”和“系统模型”等。通常构建上述“模型”的行为都属于“建模”过程。 综上,本报告将“联合建模”概念明确定义为:基于多方数据所有权的数据集合,由一家或多家数据模型构建方联合构建模型的过程。同时强调: (1)强调“建模”所需数据必须由多方提供的所有权数据组成,而不强调“建模”过程是否一定存在多家构建方。例如,多家数据供给方将所有权数据(加密或未加密)交付给某个数据加工方,由该数据加工方独立完成全部建模工作,此类集中建模的过程同样属于联合建模。 (2)强调“模型”的广义范畴,而非特指机器学习或深度学习的“模型”,也非特指某一种“隐私安全计算”技术。例如,简单的统计分析算法(可以选择使用某种多方计算技术)与较为复杂的“机器学习”“神经网络”(可以选择使用联邦学习技术)都可以算作“联合建模”的模型对象。 (3)强调数据和加工的联合,而未限制必须符合“隐私安全要求”或必须采用某项隐私计算技术。从不加限定的基本概念 上讲,即没有“隐私安全与合规性”要求的前提下,只要能达成业务目标,所有实现“联合建模”的技术手段均可选择。 但是,当前联合建模的应用市场一方面要求数据要素加快实现“共享”与“流通”,而另一方面又面临“数据无限复制”“数据无限供给”“侵犯隐私”“数据确权难”等“数据滥用”、“难以监管”等难题,因此,在明确多方数据“责权利”的基础上,专注研究面向“隐私安全”的联合建模的关键技术、基础设施平台及应用场景,以“可用而不可见”的方式实现多方数据“共享”和多方价值“流通”,更有价值和意义。本报告的研究范围将主要聚焦于面向“隐私安全”的联合建模场景。在展开相关论述之前,下面先就基于“多方数据隐私安全”下的联合建模与“传统”的联合建模作简要对比分析。 2.隐私安全联合建模与传统联合建模的对比分析 传统的联合建模方式是将所有数据汇聚到一处进行建模,并未特别考虑数据所有权因素,因此,从技术上看,这种基于数据汇聚式的联合建模和传统的单方集中数据建模,在技术上并没有本质上的区别。 目前主流的联合建模是通过隐私计算技术,在保证各方数据隐私安全的基础上进行模型训练。也就是说,基于隐私计算技术的联合建模与传统方式的本质区别在于强调了各方数据的隐私安全,具体通过多方协同计算来实现,在数据对齐、特征工程、模型训练等过程中需要多方之间交互必要的、受隐私保护的数据。 从技术复杂性上看,为保证隐私安全,这种交互可能涉及一种或多种隐私计算技术,如同态加密、多方安全计算、差分隐私等。 建模过程一般分为数据对齐、特征工程、模型训练和模型推理四个部分,以下分别从这四个建模流程来对传统联合建模和隐私保护方式下的联合建模进行对比分析。 (1)数据对齐:在传统的联合建模模式下,模型需求方和数据提供方约定好共同的ID加密方式后将双方加密后的ID汇集到一起进行样本匹配,从而得到双方可用于建模的共有样本集。在这种模式下,由于目前已经有“彩虹表”密码破解器的存在,常用的加密方式如md5、sha256等加密方式可以被暴力破解,因此在样本ID传输过程中存在着合法合规、隐私泄露的风险。在隐私保护的方式下,针对样本ID对齐场景,可基于密码学、多方安全计算等技术,通过隐私集合求交(PrivateSetIntersection-PSI)技术得到双方的样本交集,双方样本ID的原始数据不出各自私域,且各建模参与方无法获取对方除交集以外的样本ID。针对特征对齐的场景,各个参与方只需要把特征名称进行匹配对齐,无需汇聚具体的ID和特征数据。 (2)特征工程:在传统的联合建模模式下,确定双方共有 样本后,模型需求方提供共有样本的Y标签,数据提供方提供共有样本的特征数据,双方将所有的建模数据归集到一起进行特征预处理、特征筛选、特征衍生等工作。在隐私保护的联合建模模式下,各参与方的原始数据在各自私域,部分特征处理的工作如 特征相关性分析、特征IV值计算等需要多方数据交互计算的步骤,通过利用同态加密、多方安全计算等技术进行计算,计算过程中各参与方的原始数据始终不出私域。 (3)模型训练:在传统的联合建模模式下,所有的建模数据全部归集到一起进行模型训练,训练速度更快。在隐私保护的联合建模模式下,利用联邦学习、多方安全计算等技术进行模型训练,训练过程中各参与方的原始数据在各自私域内进行计算,参与方之间只交互密态信息或中间计算结果(如梯度,Loss等),而这些密态信息或中间计算结果需要通过加密或隐私保护方法如同态加密、差分隐私等方式进行交互与传输。 (4)模型推理:在传统的联合建模模式下,训练完成的模型是一个整体,进行模型推理时直接调用模型即可得到推理结果。在隐私保护的方式下,模型一般分布在各参与方,各参与方部署的是局部模型,进行模型推理时需要多个参与方共同参与计算、进行交互,但在整个模型应用过程中,各参与方原始数据均不出库。 另外,传统联合建模和隐私保护的联合建模比,在建模效率, 数据安全保护,建模参与方上也有区别,如表1所示。 表1:传统联合建模与隐私保护联合建模对比 建模效率 数据安全 建模参与方数量 传统联合建模 建模数据全部归集到一起,建模速度更快。 建模过程中,一方数据出私域,存在隐私泄露的风险。 更容易支持多方联合建模。建模过程需要参与 建模过程需要进行加 方之间的多次交 隐私保护联合建模 密传输、加密计算汇总中间结果,因此建模速度相对传统建模 建模过程中,各参与方原始数据不出私域,保证数据安全。 互,由于性能等方面的约束,参与方数量通常有限,两 方式较慢。 方或三方之间的联合建模情况较多。 (二)技术发展历程及驱动力 1.主流技术的演进历史 联合建模主流技术的发展历程是以现代密码学为核心,协同计算机体系结构、计算复杂性理论、信息论、统计学、抽象代数及数论等理论发展的渐进过程。 大致可分为四个阶段,即萌芽期、探索期、成长期和发展期,由最初的理论研究为主逐渐发展为理论指导实践的实验室应用初创,直至近几年的规模化发展。 第一阶段为1976至1985年的萌芽期,密码学诞生以后,同态加密、秘密分享、不经意传输、多方安全计算等计算理论思想在该阶段先后提出。香农于1948年发表的《通信的数学理论》一文确立了现代信息论的研究开端,内容涉及信息量化、存储和通信,是密码学发展的基石。Diffie和Hellman于1976年创立公钥密码学,拓宽了密码学的研究范围。 Rivest、Shamir和Adleman于1977年提出RSA算法,RSA 公开密钥密码体制使用不同的加密密钥与解密密钥,由已知加密密钥推导出解密密钥在计算上不可行。紧接着,Rivest本人于1978年提出同态加密思想,从抽象代数角度保持了同态性,即对密文直接处理和对明文处理后加密得到的结果相同。 Shamir和Blakley于1979年提出秘密分享思想。该思想基于Lagrange插值和矢量方法,分发者通过秘密多项式将秘密s分解为n个秘密并分发给持有者,其中任意不少于k个秘密均能恢复密文,而任意少于k个秘密均无法得到密文的任何信息。 MichaelO.Rabin于1981年提出不经意传输理论。在不经意传输中,发送者Alice发送一条消息给接收者Bob,Bob以1/2的概率接收到信息,在结束后Alice并不知道Bob是否接收到了信息,而Bob能确信地知道自己是否收到了信息。 图灵奖得主姚期智于1982年提出多方安全计算协议。该协议主要研究针对无可信第三方情况下安全计算约定函数的问题。该协议最早应用于匿名竞拍和电子投票,近年来在密钥管理解决方案,以及基于隐私保护的数据检索、数据挖掘和机器学习等分布式协同计算领域有实践应用。 第二阶段为1986至2003年的探索期,混淆电路、零知识证明、隐私检索、半同态加密等协议和算法在该阶段相继提出。继MPC之后,姚期智于1986年提出混淆电路概念,混淆电路通过布尔电路的观点构造安全函数计算,参与者可以针对某个数值来计算答案,而无需知道计算式中输入的具体数字。 Goldreich于1987年提出基于秘密分享的MPC,即可以计算任意函数的计算意义下安全的多方安全计算协议。Goldwas