人工智能之联深圳邦学TR习2022联邦学习全球研究与应用趋势报告 aminer.cn 联邦学习全球研究与应用趋势报告 2022 清华大学深圳国际研究生院知识工程研究中心北京智谱华章科技有限公司 1 开放群岛开源社区 人工智 能之联邦学习2022联邦学习全球研究与应用趋势报告 2 主要发现 “中美双雄”引领全球联邦学习发展 中国和美国的联邦学习论文发布量遥遥领先于其他国家。高被引论文之中有六成以上是来自中美两国,中美两国论文合作数量也全球最多;杰出论文之中有45.5%来自美国、31.8%来自中国,中美两国合占达七成以上。 联邦学习全球高被引论文领先的机构是谷歌(8篇)、卡内基·梅隆大学(5篇)。中国的高被引论文量较多的机构是北京邮电大学(4篇)、微众银行(3篇)。杰出论文数量则是美国的卡内基·梅隆大学与中国的香港科技大学各以3篇而并列第一。 联邦学习领域的全球高被引论文作者主要聚集在中美。美国的高被引论文作者数量最多,占全球一半,也是中国的2.6倍。 全球专利受理数量以中国地区最多,约占全球受理总量的六成,是在美国受理专利量的4倍。专利申请数量前三名机构全部是中国机构。 开源框架主要来自中美,其中OpenMined推出的Pysyft、微众银行的FATE和谷歌的TFF框架的热度居于全球前三位。 未来联邦学习研究趋势将更多与算法模型和安全隐私技术相关 目前联邦学习研究热点主要聚焦在机器学习方法、模型训练、隐私保护三方面。 未来几年研究趋势将更多涉及算法模型和安全隐私技术,如数据隐私、深度学习、差分隐私、边缘计算、物联网、云计算、移动设备、同态加密、优化问题、沟通效率等。 行业应用越来越成熟,应用研究方向呈现出更多与物联网、区块链、车辆交互、5G/6G等技术融合的态势。 目录 1.报告说明5 1.1数据范围6 1.2联邦学习知识树6 2.引言8 3.联邦学习技术研究与应用现状10 3.1技术研究现状10 3.1.1科研论文成果现状10 3.1.2高被引论文分析18 3.1.3联邦学习的特刊、书籍和综述32 3.1.4联邦学习研讨会杰出论文36 3.1.5高被引论文作者的人才地图与画像41 3.1.6专利申请现状55 3.2联邦学习框架与系统现状60 3.2.1开源框架60 3.2.2非开源框架与系统70 3.3联邦学习行业应用现状80 4.联邦学习发展趋势87 4.1研究趋势87 4.2技术成熟度88 4.3市场化与商业化趋势89 4.4国内外相关标准90 4.5生态建立与发展92 5.结语93 附录一联邦学习领域顶级国际期刊会议列表95 附录二《联邦学习架构和应用规范》简介96 附录三联邦学习五份特刊的已发表文章97 参考文献103 致谢107 版权说明108 人工智能之联邦学习 《2022联邦学习全球研究与应用趋势报告》编写团队 顾问 李涓子清华大学人工智能研究院知识智能中心唐杰清华大学人工智能研究院知识智能中心 编写团队 张淼张建伟张淳商莹玥 数据 仇瑜赵慧军宋健孙尧 排版设计 边云风韩宇 1.报告说明 自上期《联邦学习全球研究与应用趋势报告》发布以来,联邦学习领域在科研成果持续增长的同时,其行业环境越来越规范化。尤其是随着《数据安全法》、《关键信息基础设施安全保护条例》、《个人信息保护法》等政策的陆续发布实施,安全行业界对信息安全与隐私数据的重视再度升级,将深度影响到联邦学习研究和应用的发展动向和趋势。因此,我们对报告进行了更新,旨在寻找与展示最新发现。 联邦学习(FederatedLearning)是在进行分布式机器学习的过程中,各参与方可借助其他参与方数据进行联合建模和使用模型。参与各方无需传递和共享原始数据资源,同时保护模型参数,即在数据不出本地的情况下,进行数据联合训练、联合应用,建立合法合规的机器学习模型[1]。 联邦学习是一种新兴的人工智能基础技术,其概念于2016年由谷歌公司H.BrendanMcmahan在论文FederatedLearningof DeepNetworksusingModelAveraging[2]中最先提出,原本用于解决安卓手机终端用户在本地更新模型的问题,后经香港科技大学与微众银行杨强教授所领导团队在2018年将其扩展为机构间B2B分布式联合建模架构,包括按样本、特征分割以及异构多方建模,同时可以建立去中心协调器的Peer-to-Peer架构形式,其设计目标是在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下,在多参与方或多计算结点之间开展高效率,安全、可靠的机器学习。联邦学习同时包括鼓励多方持续参与合作生态的激励机制,建立正向激励的数据价值交易市场机制。当下,联邦学习已经被大量应用于金融[3]、安防[4]、医疗[5]、在线推荐系统[6]等领域。联邦学习有望成为下一代人工智能协同算法,隐私计算和协作网络的基础。 1杨强、刘洋、陈天健等:《联邦学习》,载《中国计算机学会通讯》,2018年版,第49-55页。 2McMahan,H.B.,Moore,E.,Ramage,D.,&yArcas,B.A.(2016).Federatedlearningofdeepnetworksusingmodelaveraging.arXivpreprintarXiv:1602.05629. 3https://www.fedai.org/cases/utilization-of-fate-in-anti-money-laundering-through-multiple-banks/ 4Liu,Y.,Huang,A.,Luo,Y.,Huang,H.,Liu,Y.,Chen,Y.,Feng,L.,Chen,T.,Yu,H.,&Yang,Q.(2020).“FedVision:AnOnlineVisualObjectDetectionPlatformPoweredbyFederatedLearning,”ProceedingsoftheAAAIConferenceonArtificialIntelligence,34(08),13172-13179. 5LiW.etal.“Privacy-PreservingFederatedBrainTumourSegmentation,”In:SukHI.,LiuM.,YanP.,LianC.(eds)MachineLearninginMedicalImaging.MLMI2019.LectureNotesinComputerScience,vol11861.Springer,Cham. 6BenTan,BoLiu,VincentZheng,andQiangYang.2020.AFederatedRecommenderSystemforOnline Services.InFourteenthACMConferenceonRecommenderSystems(RecSys'20).AssociationforComputingMachinery,NewYork,NY,USA,579–581.DOI:https://doi.org/10.1145/3383313.3411528 《2022联邦学习全球研究与应用趋势报告》主要从技术研究、学者画像、主流框架、行业应用,以及发展趋势几大方面,较为全面深入地介绍联邦学习自2016年诞生以来到2021年的技术研究和应用进展,并展望该技术的未来发展方向与前景。本期报告不仅将数据范围扩展到2016-2021年、更新了相关技术数据统计、现状进展等内容,而且 重点突出了对科研实践具有较大影响力的高被引论文及其作者的分析,同时增加了来自几个知名人工智能国际顶会中关于联邦学习专题研讨会的杰出论文相关分析,以展示该领域具有较高技术质量、创新力的科研成果。 1.1数据范围 本报告研究数据范围是科技情报大数据挖掘与服务系统平台AMiner数据库所收录的2016-2021年期间与联邦学习研究主题强相关的论文数据、专利数据以及公开数据等。论文的引用量数据统计截止日期为2022年3月31日。 1.2联邦学习知识树 本报告根据联邦学习的关键技术和相关技术,利用AMiner数据库中该领域的高水平学术论文,将挖掘出的全球活跃的联邦学习重要技术点表征为知识树结构,如图1所示。 图1联邦学习知识树 2.引言 人工智能未来能否可持续发展面临两大困境。一是数据困境。人工智能和机器学习算法具有 对数据强依赖的特性。现实中,多数行业领域存在着数据有限且质量较差的问题,并且以碎片化的形式分散存在,不足以支撑人工智能技术的实现。同时,数据源之间存在着难以打破的壁垒。由于行业竞争、隐私安全、行政手续复杂等问题,数据还多是以孤岛形式存在的。此外,研究界和企业界目前的情况是收集数据的一方通常不是使用数据的一方。因此,将分散在各地、各机构的数据进行整合用于机器学习所需的成本非常巨大。 二是法律挑战。当前,重视数据隐私和安全已经成为世界性的趋势,各国都在不断地推出和加强完善对数据安全和隐私保护的相关法规。欧盟2018年正式施行《通用数据保护条例》(GeneralDataProtectionRegulation,GDPR)。在中国,全国信息安全标准委员会先后于2017年12月和 2020年3月发布了两版《信息安全技术个人信息安全规范》(GB/T35273-2017、GB/T35273- 2020),对个人信息收集、储存、使用做出了明确规定。此外,在2017年起实施的《中华人民共和国网络安全法》[7]和《中华人民共和国民法总则》 [8]中也指出网络运营者不得泄露、篡改、毁坏其收集的个人信息,并且与第三方进行数据交易时需确保在合同中明确约定拟交易数据的范围和数据保护义务。2021年陆续公布实施了《数据安全法》 [9]、《个人信息保护法》[10]、《关键信息基础设施安 全保护条例》[11],为数据安全提供了法律保护,更规范了数据的合法合规使用。 针对以上困境,“狭义”联邦机器学习的概念于2016年由谷歌研究人员首先提出,随后成为一个解决数据孤岛问题、满足隐私保护和数据安全的一个可行性解决方案[12]。联邦学习的特征是数据不出本地、各个参与者的身份和地位平等、它能够实现多个参与方在保护数据隐私、满足合法合规要求的前提下进行机器学习,协同地进行模型训练与结果预测,并且建模效果和将整个数据集放在一处建模的效果相同或相差不大(在各个数据的用户对齐(useralignment)或特征对齐(featurealignment)的条件下)[12],从而实现企业间的数 7《中华人民共和国网络安全法》,中共中央网络安全和信息化委员会办公室、中华人民共和国国家互联网信息办公室,http://www.cac.gov.cn/2016-11/07/c_1119867116.htm 8《中华人民共和国民法总则》,中华人民共和国中央人民政府,http://www.gov.cn/xinwen/2017-03/18/content_5178585.htm#1 9《中华人民共和国数据安全法》,中国人大网,2021年06月10日, http://www.npc.gov.cn/npc/c30834/202106/7c9af12f51334a73b56d7938f99a788a.shtml 10《中华人民共和国个人信息保护法》,中国人大网,2021年08月20日, http://www.npc.gov.cn/npc/c30834/202108/a8c4e3672c74491a80b53a172bb753fe.shtml 11《关键信息基础设施安全保护条例》,中国政府网,2021年08月17日 http://www.gov.cn/zhengce/content/2021-08/17/content_5631671.htm 12杨强、刘洋、陈天健等:《联邦学习》,载《中国计算机学会通讯》,2018年版,第49-