您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[DataFunSummit:2023年用户隐私与数据安全峰会]:端云协同隐私计算系统的设计和落地探索 - 发现报告
当前位置:首页/行业研究/报告详情/

端云协同隐私计算系统的设计和落地探索

AI智能总结
查看更多
端云协同隐私计算系统的设计和落地探索

端云协同的隐私计算系统的设计和实践 演讲人:Luca-OPPO-高级隐私计算研究员 DataFunSummit2023 背景及设计理念 DataFunSummit2023 术语说明 术语 说明 端 具有弱计算能力的数据提供方,例如手机、智能摄像头等 云 在企业内部部署,具有强计算能力,例如服务器集群 端云协同 结合弱计算能力的端和强计算能力的云完成特定计算任务,例如模型训练 隐私计算 又称隐私增强计算(Privacy-enhancingtechnologies,PET)是指在保证数据提供方不泄露原始数据的前提下,对数据进行分析计算的一系列信息技术,能够保障数据在流通与融合过程中的“可用不可见” 端云协同隐私计算 在端云协同计算的前提下,云侧不获知端侧敏感数据的具体内容,端侧不获知云侧敏感数据,仍可以对数据进行分析计算,安全流通和融合数据 传统纯云智能系统 e.g.输入法下一词预测 •2020/11,欧盟颁布《数据治理法》(DataGovernanceAct)草案;2022/02颁布《数据法案》(DataAct)草案 •2022/12,启动“欧盟-美国数据隐私框架充分性决定”进程 并发布草案,旨在促进安全的跨大西洋数据传输 •2022/12,《数据二十条》出台,提出探索数据产权运行机制,形成“数据三权”分置的特色制度,促进数据合规高效流通使用 •2022/12,欧盟委员会发布2023-2024年数字欧洲计划工作方案 •2023/03,美国OSTP发布Privacy-PreservingDataSharing andAnalytics(PPDSA)战略 础润而雨 •1月30日,厦门银行违反个人金融信息保护规定、违反信息披露管理规定等23项违法行为罚款764万元 •2月12日,Telegram查询机器人爆出国内45亿个人信息泄 露,数据主要来自各快递平台 •公安部公布黑产“断号”行动十大典型案例,个人信息占7成 •特斯拉、TikTok、拼多多身陷数据安全、隐私问题的风口浪尖 e.g.定期热门App统计 思考手机大模型训练 聊聊NLP发展中午吃小笼包 明天去吃汉堡今天去吃大鸡翅中午去吃小笼包想去马尔代夫聊聊今天吃什么中午吃什么 想去马尔代夫聊聊今天吃什么中午吃什么 明天去吃汉堡今天去吃大鸡翅中午去吃小笼包 思考手机大模型训练聊聊NLP发展 中午吃小笼包 数据探查 建模验证 数据假设 •数据分布在端侧,内容被保护 •云侧可能持有少量数据 •端云间交互无法反推隐私的中间数据 端云隐私计算系统设计假设 明天去吃汉堡今天去吃大鸡翅中午去吃小笼包 输入法下一词预测 端云协同隐私计算范式 定期热门App统计 想去马尔代夫聊聊今天吃什么中午吃什么 计算基础 •端具有极有限计算能力 •端云网络不稳定,带宽低 •端数量千万级 •端分布在全球不同区域 汇总统计 思考手机大模型训练聊聊NLP发展 中午吃小笼包 任务定义 •端云计算任务可分解为子任务 迭代执行 •端参与运算,每子任务需要部分端运行 •可能需要云聚合端运行结果 汇总模型 端云算法层 联邦学习攻防 联邦差分隐私 隐私保护端云统计 高效通信联邦学习 端云双侧数据互补 (抗Non-IID)联邦训练 端云隐私计算系统的三层功能需求 端云协同层 端云日志监控 计算任务配置分发 端采样 端云通信 端云智能层 端云模型评估 端云联合调参 端云模型训练 端云数据转换 端云数据分析 智能任务定义 端云隐私计算系统设计理念 主动隐私 面向落地智能业务 全球千万级设备协作 主动隐私意为以用户为中心,主动感知、主动审计、主动合规,以用户隐私安全为第一优先级,从提升用户智能服务体验�发,主动构建数据合法合规使用和流通策略,通过系统实现隐私技术透明公开、可证可信地承载全生命周期用户隐私安全保护能力 系统面向落地智能业务,包含智能业务全层级,从业务定义、数据采集、数据转换、数据分析、端云建模、效果评估等全链路多方面实现端云协同且双方隐私保护的智能服务 面向分布在全球的千万级异构计算设备,通过安全高效的端云协同实现隐私保护的设备间协作 Selector Link AggregatorBuffer MasterSelector AggregatorsAggregatorsAggregators Selector Link Selector Link Task Sub-Task Sub-Task 整体架构:选择-计算-聚合范式 端,分布在不同区域 Selector 近端端选择器 MasterSelector 全局端选择器 Link 近端端云链路 AggregatorBuffer 交互内容队列 Aggregator 聚合器实例 Task/Sub-Task 任务及其子任务 实践问题探索与解决 DataFunSummit2023 大规模端采样:端选择三象限 选择服务立刻回复确认 端等待时间短 匹配端可用条件 ⅹ端子集整体要求困难 随机异步端选择 每子任务随机选择参与端子集 参与端多样性高 对于端掉线鲁棒 容易扩展至较大端数量 ⅹ对实际参与方控制较弱 随机端子集 任务固定参与端集合 无需每子任务选择环节 参与方稳定可控ⅹ对端掉线敏感ⅹ可用端数量较小 固定端子集 问题定义:从可用端全集中选择一个子集参与一个子任务随机同步端选择 固定端子集 SysBon,采用pacesteering方式,端选择阶段和端计算阶段分离 FedML等,任务启动前手动 选择服务等待完整子集确认 可对端子集整体匹配要求 ⅹ不匹配端可用条件 ⅹ端等待时间长,拉长整体任务时间 随机同步端选择 配置参与端,无需选择阶段 FE&T、Papaya及我们考虑端可用条件匹配、端数量和整体任务时间,采用随机异步端选择机制 随机异步端选择 大规模端采样:随机异步的3种端选择策略 贪心端 均匀端 自然端 问题定义:从可用端全集中选择一个子集参与一个子任务 可用端数量 选择概率 选择概率 选择概率 GMT+3 GMT+4空间 分配 GMT+5 周期假设 时间 接近 快 均匀客观 时间时间时间 大规模端采样:随机异步时空均匀的端选择 问题定义:从可用端全集中选择一个子集参与一个子任务 Selector 用上端周数期量可 可用端数量 Selector 时间 时间 选择概率更新 Selector MasterSelector 用上端周数期 量可时间 时间均匀 端选 用上择概 端周率时间 数期量可 时间 时空 用上均匀 端周端选 数期择概 率 量可 时间时间 传统模型评估:数据→模型 模型评估结果 隐私保护模型评估:模型→数据 模型评估结果 •模型评估范式转变,传统为数据到模型,在端云隐私保护场景下,为模型到数据 •隐私保护模型评估可以分为验证数据集构建、模型下发、端侧本地评估及云侧聚合3个步骤 •验证数据集基于用户选择(即端选择)和端内数据划分两个维度构建 •模型下发除标准下发外,可以随训练基础模型下发以节省通信量,还可以多模型一起下发以实现A-B模型测试 •本地评估和聚合分为端侧计算评估指标并加密,云侧聚合两步骤 本地评估及聚合 评估指标聚合 端本地评估 模型下发 A-B模型测试 随训练下发 验证数据集构建 端内数据划分 端选择 落地智能业务:云侧无数据的模型评估 落地智能业务:联邦学习≠安全,过程安全 端云协同挑战——安全 问题:端云范式的脆弱性 •客户端数据操作:参与客户端数量众多,可利用模型参数和训练数据实施攻击 •被损害的中央服务器:中央服务器负责聚合和分发数据,存在被攻击者利用的可能性 •聚合算法的不足:一般聚合算法无法识别�异常的数据并抛弃那些 可疑的数据 [1]Jin,Tongsai,etal.“FedPerturb:CovertPoisoningAttackonFederatedLearningviaPartial Perturbation."(ECAI,2023).(OurWork,underreview) [2]DanMeng*,XueWang,JunWang."BackdoorAttackAgainstAutomaticSpeakerVerificationModelsinFederatedLearning"ICASSP2023-2023IEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing(ICASSP).IEEE,2023.[PDF].(OurWork) 攻击的研究工作 •投毒攻击(Poisoning): •FedPerturb[1]提�了一种新型联邦学习无目标投毒方案,能够打破多种先进防御方案,并造成全局模型发散。 -Step1.根据相应的策略选择具体的攻击扰动目标(如全连接层的bias, BN层前一个卷积层的weight) -Step2.确定扰动的范围与训练更新L2范数的缩放倍率(实验结果显示仅需将这两个超参数设定在一个范围内即可获得良好的攻击效果) -Step3.根据设定好的超参数对指定范围的训练更新进行自适应缩放 -Step4.最后将该训练更新上传即可实现一次攻击 •后门攻击(Backdoorattacks): •FedBA[2]工作利用精心设计的GSC和PFAgg算法有效且隐蔽地攻击speaker 验证模型,且表明了FL后门攻击能够取得与集中式方法相当的性能 FedBA后门攻击流程 主动隐私技术层:联邦学习≠安全,数据安全 端云协同挑战——安全 安全防御的研究工作 差分隐私 •防止梯度泄露并保护参与方的隐私[1]:通过在本地梯度中添加噪声来保护隐私,使攻击者无法推断�任何关于单个客户端的敏感信息 •作为主要参与方制定差分隐私行业团队标准 2022年11月25日正式发布[2] 遗忘学习 模型水印 •FedExU[3]:让模型有效遗忘指定训练数据,是一种保护用户数据隐私的方式,能降低训练的计算和时间开销,也保障遗忘指定数据前后模型的表现相同 •FedIPR[4]框架提�了联邦深度神经网络所有权验证方案 •允许嵌入和验证所有权签名,以声明FedDNN模型的合法知识产权(IPR),从而防止模型被非法复制、重新分发或滥用 [1]Ye,Dayong,etal."OneParameterDefense—DefendingAgainstDataInferenceAttacksviaDifferentialPrivacy."IEEETransactionsonInformationForensicsandSecurity17(2022):1466-1480.[PDF] [2]基于差分隐私的用户个人信息保护技术要求(Ourwork) [3]Cai,Yichen,etal.“FederatedExactUnlearning."2023.(Ourwork,underreview) [4]Li,Bowen,etal."FedIPR:Ownershipverificationforfederateddeepneuralnetworkmodels."IEEE TransactionsonPatternAnalysisandMachineIntelligence(2022).[PDF] 小结 •传统纯云智能系统存在用户隐私泄露风险,端云隐私计算系统需求逐渐增大 •端云隐私计算系统针对大规模设备的选择-计算-聚合架构 •端选择三象限及随机异步选择中的按不同业务需求的三种策略 •随机异步选择中基于时空两维度的均匀端选择机制 •端云隐私计算系统中模型评估范式转变和新流程 •联邦学习不等于安全,所谓安全包含数据安全、过程安全两个方面,数据安全包含用户隐私数据安全和模型数据安全两部分,联邦学习更易受到投毒、后门攻击 DataFunSummit2023 感谢观看