联邦学习概述
概念
联邦学习(Federated Learning)旨在建立一个基于分布数据集的机器学习模型,允许多个参与方在各自原始数据不出私域的前提下,协作完成某项机器学习建模任务。
发展历程
- 1995年:首次提出隐私保护数据挖掘(PPDM)的概念。
- 1999年:Rakesh Aggrawal 提出将 PPDM 作为数据挖掘领域未来研究的重点之一。
- 2001年:杜文亮等人提出基于数据扰动技术和密码技术的隐私保护下两方数据的统计分析。
- 2002年:Yehuda Lindell 将 ID3 算法进行改造,标志着隐私保护机器学习(PPML)的逐渐形成。
- 2016年:谷歌首次提出 Federated Learning 概念,并应用于智能手机输入法预测。
- 2019年:联邦学习第一个工业级框架 FATE 开源,应用于信贷风控、客户权益定价、监管科技等领域。
纵向联邦学习特点
特点
- 不同算法实现方式差异大。
- 通信量较大。
- 密文计算加速。
- 算法流程优化。
- 通信量压缩。
- 各参与方间均可能通信。
- 本地涉及大量密文计算。
性能优化实践
离线计算
- MPC 中:使用秘密分享协议 SPDZ,离线生产乘法三元组,提升在线计算效率。
- 同态加密:对明文的加密过程进行优化,显著提高实时加密效率。
稀疏数据的计算
- 稀疏矩阵乘法加密运算:仅将非零元素与密文进行运算。
- 稀疏直方图优化方案:将密文求和计算转化为明文计算,减少最大分桶内的元素密文求和运算。
通信压缩
- 密文压缩方案:将多个计算逻辑相同的明文拼接在一起打包加密,减少计算量。
- 明文打包加密:将密文打包在一起,压缩通信量。
技术趋势
全同态加密
- 目前全同态加密的实现遵循 Gentry 提出的蓝图,通过自举将其转换为全同态加密。
- 全同态加密的单个密文的加密效率慢,密文长度大,且随着需要支持的乘法次数增加,这些缺点会越发明显。
多技术融合
- 模型隐私性:结合 MPC 和 HE/SS 技术,实现模型参数的本地明文计算。
- 性能:结合基础算子和函数算子,协同机器学习,提高性能。
结语
非常感谢您的观看。