学习全球研与应用趋势报 主要发现 “中美双雄”引领全球联邦学习发展 中国和美国的联邦学习论文发布量遥遥领先于其他国家。六成以上高被引论文来自中美两国,中美两国论文合作数量也是全球最多;七成以上最佳论文来自中美两国。 联邦学习全球高被引论文领先的机构是谷歌(11篇)、卡内基·梅隆大学(7篇)。中国的高被引论文量较多的机构是北京邮电大学、香港科技大学、中山大学以及深圳市大数据研究院。最佳论文数量则是卡内基·梅隆大学与香港科技大学各以3篇而并列第一。全球高被引论文作者主要聚集在中美,美国的高被引论文作者数量是中国的2.3倍。 全球专利受理数量以中国地区最多,约占全球受理总量的七成。专利申请数量前三名机构全部是中国机构。 联邦学习的九成以上国家自然科学基金资助是青年科学基金项目和面上项目。 开源框架主要来自中美,其中OpenMined推出的Pysyft、FATE开源社区的FATE热度超过4000,居于第一梯队;FedML.AI的FedML、Adap的Flower、谷歌的TFF等框架的热度也较高,热度超过2000,且FATE和FedML两个框架目前已推出LLM模块。 未来联邦学习研究趋势将更多与算法模型和安全隐私技术相关 目前联邦学习研究热点主要聚焦在机器学习方法、模型训练、隐私保护三方面。 I 未来几年研究将更多涉及算法模型和安全隐私技术,如数据隐私、差分隐私、边缘计算、物联网、同态加密等。可信联邦学习成为重要趋势,联邦大模型技术、模型产权保护(IPR)、模型定价等正在初步探索。 行业应用越来越成熟,应用研究方向呈现出更多与物联网、区块链、客户端、电子设备等融合的态势。 目录 1.报告说明1 1.1数据范围3 1.2联邦学习知识树3 2.引言5 3.联邦学习技术研究与应用现状10 3.1技术研究现状10 3.1.1科研论文成果现状10 1.论文发表量复合年增长率为38.6%10 2.论文发布量以中美两国为引领11 3.研究热点涵盖应用、系统和模型设计、安全隐私三个领域12 3.1.2高被引论文分析20 1.六成以上高被引论文来自中美两国20 2.美国的论文被引用量全球显著领先21 3.谷歌拥有最多数量的高被引论文23 4.联邦学习十大算法23 5.高被引论文TOP10解读25 6.中美两国论文合作数量全球最多33 7.美英两国合作论文被引量全球领先34 8.七成以上论文存在跨机构合作现象35 9.物联网期刊是发布高被引论文最多的渠道36 10.国际顶会相关论文收录量逐年增加37 3.1.3联邦学习的特刊、书籍和综述38 1.特刊38 2.书籍41 3.综述44 3.1.4联邦学习研讨会最佳论文47 1.七成以上最佳论文来自中美两国47 2.卡内基·梅隆和香港科大最佳论文量并列第一48 3.FL-IJCAI获奖作者人次以中国居首,FL-NeurIPS则以美国领先49 4.FL-ICML系列最佳论文作者次数最多的机构是瑞士EPFL与韩国KAIST ......................................................................................................................................525.FL-AAAI系列最佳论文作者半数以上为华人.............................................53 3.1.5高被引论文作者的人才地图与画像54 1.全球高被引论文作者主要聚集在美国和中国54 2.美国高被引论文学者量是中国的两倍以上55 3.谷歌是高被引论文学者量最多的机构56 4.近三成高被引论文作者供职于企业57 5.不同研究方向的代表学者画像58 3.1.6专利申请现状75 1.全球专利申请总体呈现上升趋势75 2.全球专利受理情况以中国地区最多76 3.中国是联邦学习技术第一大来源国77 4.国内专利申请以北京、广东和浙江领先77 5.两家金融机构专利申请量较为突出78 6.专利技术创新点最多聚焦于客户端与区块链79 7.专利申请最多布局在机器学习与数据存取访问平台保护两个IPC分类808.引入新兴技术创新点的联邦学习专利已开始萌芽82 3.1.7国家自然科学基金项目资助分析84 1.NSFC相关资助项目数量与金额近年来明显增加85 2.香港地区基金资助项目多于澳门基金资助量89 3.基金国际合作项目较多资助了安全与隐私研究方向91 3.2联邦学习框架与系统现状92 3.2.1开源框架93 1.OpenMined——PySyft97 2.FATE开源社区——FATE98 3.FedML.AI——FedML100 4.谷歌——TensorFlowFederated,TFF102 5.字节跳动——Fedlearner103 6.百度——PaddleFL104 7.京东——九数联邦学习9NFL105 3.2.2非开源框架与系统106 1.腾讯——AngelPowerFL110 2.京东科技——Fedlearn111 3.平安科技——蜂巢112 4.富数科技——FMPC113 5.星云Clustar——AIOS115 6.光之树科技——天机、云间116 7.翼方健数——翼数坊XDP118 8.AIIA——电信领域联邦学习技术架构120 9.中国工商银行——工行联邦学习平台框架121 3.3联邦学习行业应用现状122 4.联邦学习发展趋势135 4.1研究趋势135 4.1.1总体趋势135 4.1.2联邦学习与大模型技术的融合趋势136 1.联邦大模型是AI大模型时代的产物136 2.联邦学习大模型相关论文141 4.2技术成熟度143 4.3市场化与商业化趋势146 4.4国内外相关标准147 4.5生态建立与发展149 5.结语151 附录一联邦学习领域顶级国际期刊会议列表153 附录二《联邦学习架构和应用规范》简介154 附录三联邦学习特刊的部分已发表文章155 ComputerNetworks联邦学习特刊已发表文章155 Computers&Security联邦学习特刊已发表文章157 IEEEINTELLIGENTSYSTEMS联邦学习特刊已发表文章158 Electronics联邦学习特刊已发表文章160 WirelessCommunicationsandMobileComputing联邦学习特刊已发表文章.161 参考文献165 致谢171 版权说明172 人工智能之联邦学习—— 《2023联邦学习全球研究与应用趋势报告》 编写团队 顾问 李涓子清华大学人工智能研究院知识智能中心唐杰清华大学人工智能研究院知识智能中心 编写团队 张淼张建伟张淳商莹玥孙旭东徐洁 数据 仇瑜赵慧军宋健孙尧 排版设计 边云风韩宇周凯杰 1.报告说明 《联邦学习全球研究与应用趋势报告》是一个追踪联邦学习领域动态和进展的非营利性项目。2023年度报告是本系列第三期,旨在更新展示联邦学习科研成果与技术应用的最新动态。在过去的一年里,AI世界已经进入一个以大模型引领的新的发展阶段。人们在惊叹大模型的强大能力的同时,也在担忧其训练数据来源合规性、数据使用的偏见性等安全风险隐患;同样,在行业监管环境越来越规范化、信息安全与隐私数据越来越受重视的背景下,联邦学习研究和应用趋势也逐渐迈向可信联邦学习。 联邦学习(FederatedLearning)是在进行分布式机器学习的过程中,各参与方可借助其他参与方数据进行联合建模和使用模型。参与各方无需传递和共享原始数据资源,同时保护模型参数,即在数据不出本地的情况下,进行数据联合训练、联合应用,建立合法合规的机器学习模型[1]。 联邦学习是一种新兴的人工智能基础技术,其概念于2016年由谷歌公司H.BrendanMcmahan在论文FederatedLearningofDeepNetworksusingModelAveraging[2][3]中最先提出,原本用于解决安卓手机终端用户在本地更新模型的问题,后来经香港科技大学与微众银行杨强教授所领导团队在2018年将其扩展为机构间B2B分布式联合建模架构,包括按样本、特征分割以及异构多方建模,同时可以建立去中心协调器的Peer-to-Peer架 1杨强、刘洋、陈天健等:《联邦学习》,《中国计算机学会通讯》,2018年版第11期,第49-55页. 2McMahan,H.B.,Moore,E.,Ramage,D.,&yArcas,B.A.(2016).Federatedlearningofdeepnetworksusingmodelaveraging.arXivpreprintarXiv:1602.05629. 3注:该论文后于2017年以Communication-EfficientLearningofDeepNetworksfromDecentralizeddata为标 题发表于AISTATS2017。 构形式,其设计目标是在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下,在多参与方或多计算结点之间开展高效率、安全、可靠的机器学习。联邦学习同时包括鼓励多方持续参与合作生态的激励机制,建立正向激励的数据价值交易市场机制。当下,联邦学习已经被大量应用于金融[4]、安防[5]、医疗[6]、在线推荐系统[7]等领域。联邦学习有望成为下一代人工智能协同算法、隐私计算和协作网络的基础。2023年,美国白宫发布了《国家人工智能研发战略计划》,其中,“促进联邦机器学习方法(FederatedML)”被列为首要战略的十大优先事项之一,即列入“对基础和负责任的人工智能研究进行长期投资”战略。 《2023联邦学习全球研究与应用趋势报告》主要从技术研究、学者画像、主流框架、行业应用,以及发展趋势几大方面,较为全面深入地介绍联邦学习自2016年诞生以来到 2022年的技术研究和应用进展,并展望该技术的未来发展方向与前景。本期报告不仅将数 据范围扩展到2016-2022年、更新了相关技术数据统计、现状进展等内容,重点突出展示了该领域具有较高技术质量、创新力的科研成果,例如,对科研实践具有较大影响力的高被引论文及其作者的分析、来自知名人工智能国际顶会的联邦学习专题研讨会最佳论文相关分析等,而且增加了联邦学习领域的国家自然科学基金获批项目分析、以及融合了大模型技术 4https://www.fedai.org/cases/utilization-of-fate-in-anti-money-laundering-through-multiple-banks/ 5Liu,Y.,Huang,A.,Luo,Y.,Huang,H.,Liu,Y.,Chen,Y.,Feng,L.,Chen,T.,Yu,H.,&Yang,Q.(2020).“FedVision:AnOnlineVisualObjectDetectionPlatformPoweredbyFederatedLearning,”ProceedingsoftheAAAIConferenceonArtificialIntelligence,34(08),13172-13179. 6LiW.etal.“Privacy-PreservingFederatedBrainTumourSegmentation,”In:SukHI.,LiuM.,YanP.,LianC.(eds)MachineLearninginMedicalImaging.MLMI2019.LectureNotesinComputerScience,vol11861.Springer,Cham. 7BenTan,BoLiu,VincentZheng,andQiangYang.2020.AFederatedRecommenderSystemforOnlineServices.InFourteenthACMConferenceonRecomme