纵向联邦XGB算法概述
问题定义
- 算法背景:联邦树模型,XGB模型定义包括回归树、二叉树、分裂信息、叶子权重等。
- 算法设定:输入为垂直切分的数据,输出为分布式XGB模型。
安全训练
- MPC技术:使用秘密分享(SS-XGB)技术,如秘密分享变量的拆分和同态加密。
- 瓶颈分析:秘密分享矩阵乘性能差,引入不经意排列算子(SP)、同态加密(HEP-XGB)和基于秘密分享的CRP-XGB来优化。
训练优化
- 不经意排列算子(SP):用于保护数据隐私。
- 同态加密(HEP-XGB):通过同态加密实现不经意排序,提高计算效率。
- 基于秘密分享的CRP-XGB:解决X泄漏问题,并优化排列函数的计算。
预测算法
- 预测流程:明文预测与安全预测对比,包括特征加权和特征选择。
- 实验测评:精度测试和性能测试,涵盖分类和回归任务,展示了联合建模的优势和实际应用效果。
关键数据
- 分类任务:14万训练样本,11万测试样本,16+7特征。
- 回归任务:61万训练样本,26万测试样本,25+29特征。
- 大规模测试数据集:1200万样本,200维特征。
总结
该研究提出了纵向联邦XGB算法,通过MPC技术、同态加密和秘密分享等方法,解决了联邦学习中的安全性和效率问题。实验结果显示,在分类和回归任务中均表现出良好的性能,并验证了联合建模的优势。