隐私计算应用研究报告 (2023年) 隐私计算联盟 2023年7月 版权声明 本报告版权属于隐私计算联盟、中国信息通信研究院云计算与大数据研究所,并受法律保护。转载、摘编或利用其它方式使用本报告文字或者观点的,应注明“来源:隐私计算联盟、中国信息通信研究院云计算与大数据研究所”。违反上述声明者,本院将追究其相关法律责任。 编写委员会 ❖主要编写单位(排名不分先后): 隐私计算联盟、杭州趣链科技有限公司、上海富数科技有限公司、中国建设银行股份有限公司、蚂蚁区块链科技(上海)有限公司、同盾科技有限公司 ❖参与编写单位(排名不分先后): 华控清交信息科技(北京)有限公司、杭州金智塔科技有限公司、中信银行股份有限公司、联易融数字科技集团有限公司、北京数牍科技有限公司、中国科学院信息工程研究所、阿里巴巴(中国)有限公司、北京熠智科技有限公司、上海浦东发展银行股份有限公司、上海零数众合信息科技有限公司、粤港澳大湾区数字经济研究院(福田)、天冕信息技术(深圳)有限公司、杭州阿里妈妈软件服务有限公司、北京瑞莱智慧科技有限公司、星环信息科技(上海)股份有限公司、北京冲量在线科技有限公司、杭州锘崴信息科技有限公司、广州芳禾数据有限公司、优刻得科技股份有限公司、工商银行金融科技研究院、京信数据科技有限公司、深圳市洞见智慧科技有限公司、山东华链医疗科技有限公司、联通数字科技有限公司、中移动信息技术有限公司、广州广电运通金融电子股份有限公司、厦门大学、北京百度网讯科技有限公司、兴业数字金融服务(上海)股份有限公司、神州融安数字科技(北京)有限公司、航天信息股份有限公司 ❖编写组主要成员(排名不分先后): 宋佳楠 闫树 袁博 贾轩 魏凯 姜春宇 吕艾临 白玉真 王思源 杨靖世 童锦瑞 杨晓芸 郭娟娟 马智华 邱颖昭 徐静 邹鑫 张延楠 卞阳 杨天雅 方竞 吴凯 杨俊 张晓蒙 朱盼盼 昌文婷 黄翠婷 陈涛 崔琢 靳晨 时代 陈超超 王雪黎 张剑 陈曦 金银玉 单进勇 韩言妮 安伟 李世奇 蒋兰 张金波 高扬 陶建萍 兰春嘉 刘元鸿 吴焕明 许文彬 秦超 杜岚 王煜惠 唐恺 薛焱 刘沛 徐琳玲 郑灏 童瑶 汤克云 徐荣文 李博 韩晓宇 马晶 崔玲龙 茹志强 卫晓欣 范晓亮 王欢 高海隆 王锋 刘伟 王皓 田心 前言 2022年12月,《中共中央国务院关于构建数据基础制度更好发挥数据要素作用的意见》(简称“数据二十条”)对外发布,系统性布局了数据基础制度体系的“四梁八柱”,加速了数据要素市场发展和数据要素高效流通使用。2023年1月,工业和信息化部、国家网信办、发展改革委等十六部门印发《关于促进数据安全产业发展的指导意见》提出加强隐私计算、数据流转分析等关键技术攻关;加强隐私计算等产品研发;推进安全多方计算、联邦学习、全同态加密等数据开发利用支撑技术的部署应用。 随着数据要素流通被高度重视,隐私计算技术通过“原始数据不出域、数据可用不可见”的服务范式已逐渐成为数据安全流通的有效保障方式。近年来,隐私计算在政策和市场的双重驱动下高速发展,正处于产业快速增长期阶段。隐私计算应用也逐渐从金融、政务、通信、互联网、医疗等传统场景扩展到能源、工业、教育、广告、跨境流通等新兴领域;同时在数据要素加速开放共享的新形势下,隐私计算也成为支撑数据要素流通平台的重要技术设施,在公共数据流通平台、数据交易平台、企业集团数据平台等模式上被广泛应用。 经过一年多的发展,结合数据要素新形势及大模型等新技术的出现,隐私计算在应用模式、问题挑战、解决方案等方面均迎来了新的变化。中国信通院云大所联合隐私计算联盟,对行业一线实践情况和关注焦点进行广泛征集、深度探讨,共同完成了《隐私计算应用研究报告(2023年)》。该报告梳理了数据要素发展环境下隐私计算面 临的新形势,分析了隐私计算在数据流通领域的应用现状,总结了隐私计算应用在演变适配数据要素新形势下的问题挑战,并对隐私计算应用部署的全流程难点及解决方案进行了阐述,旨在为隐私计算参与各方提供应用参考,推动隐私计算应用在各行业、各数据流通模式下快速发展。 本研究报告亮点如下: 解读行业变化,洞察发展趋势 结合数据要素加速开放共享的政策背景、大模型等新技术应用的最新行业背景,分析隐私计算应用在赋能数据要素流通中的支撑作用。 梳理应用现状,剖析典型案例 汇集业内专家实践经验,梳理隐私计算在垂类行业场景及数据流通平台的应用现状,并对典型案例进行深度分析。 聚焦行业难点,总结解决方案 围绕数据要素发展新形势,梳理了隐私计算仍需演变适配的应用方向,并针对项目部署全流程的难点问题及解决方案进行总结,为业内应用部署提供参考指引。 漫漫长路,笃行致远;探索无尽,大有可为!我们期望携手众多业界同仁,共同把握创新的机遇,为推动隐私计算应用的发展做出积极贡献,努力将隐私计算在数据要素流通中发挥出更加深远、多元的价值! 目录 第一章隐私计算赋能数据要素流通概述1 (一)我国数据要素流通面临新形势1 (二)隐私计算应用赋能数据要素流通2 第二章隐私计算在数据流通的应用现状8 (一)隐私计算在垂类行业的应用分析8 (二)隐私计算在数据流通平台中的应用分析13 (三)典型案例分析15 第三章隐私计算应用面临的问题与挑战54 (一)隐私计算应用的演变之路54 (二)隐私计算项目应用难点及解决方案58 第四章隐私计算应用未来展望73 (一)技术体系发展成熟,应用效果加速优化73 (二)数据要素开放共享,应用场景不断拓展75 (三)数据基础设施搭建,应用规模大幅提升76 参考文献78 附录78 第一章 隐私计算赋能数据要素流通概述 (一)我国数据要素流通面临新形势 近年来,随着数字经济的发展,数据已成为新型生产要素和战略性资源,数据作为一种具有独特属性的生产要素,具有非竞争性、无限供给、易复制、边际成本极低等特点。为完善数据要素治理制度,保障数据要素流通安全,我国政府出台了一系列数据安全相关的政策文件。中共中央、国务院在2022年4月发布了《关于加快建设全国统一大市场的意见》,指出应加快建设高效规范、公平竞争、充分开放的全国统一大市场,加快培育统一的技术和数据市场。2022年12月国务院印发了《关于构建数据基础制度更好发挥数据要素作用的意见》(即“数据二十条”),聚焦数据产权、流通交易、收益分配、安全治理四大重点方向,提出二十条政策举措。在这一系列政策的大背景下,数据要素市场日渐活跃,数据要素合规有序流通的需求高涨。 当前,我国数据要素流通还处于较为初期的起步阶段,按照数据流通平台来看,目前主要分为公共数据开放平台、数据交易平台、企业集团数据开放平台三类;按照数据与资金在主体间流向的不同,数据要素流通模式可以分为:数据开放、数据共享、数据交易。数据开放目前主要以公共数据为主要对象,应用领域主要有社会治理、公共服务、数字经济等方面。数据共享中各组织互为供需方,各方均对数据有需求,通过共享的方式实现优势互补,互利共赢,主要在企业间、 政企间、政府间相互共享。数据交易有明确的供应端和需求端,国内活跃的数据交易主要集中在互联网、运营商和金融机构之间,交易模式集中在供需方点对点的模式上。 虽然我国数据要素流通相关政策和基础设施建设已经取得了一定进展,但是目前尚处于起步阶段,仍面临一些挑战,比如供需双方需求不够旺盛、流通规则不够明确、数据安全合规性难保证、配套支撑体系不够完善等,其中数据安全和隐私保护问题也是全球范围内数据流通发展关注的重点。探索实现在数据要素开放生态环境下的“数据可用不可见”、“数据可控可计量”,进一步提高数据合规共享水平将是未来发展的方向。 (二)隐私计算应用赋能数据要素流通 隐私计算作为保障数据融合使用和数据要素安全流通的有效技术手段,逐步成为数字中国必不可缺的一部分。工信部早在2016-2020年的《大数据产业发展规划》中就将差分隐私、多方安全计算等作为大数据安全产品的关键技术,而支撑“十四五”的《新型数据中心发展三年行动计划》、《“十四五”大数据产业发展规划》等也对隐私计算产品的研发和应用提出指引。2023年1月《关于促进数据安全产业发展的指导意见》也提出推进安全多方计算、联邦学习、全同态加密等数据开发利用支撑技术的部署应用。在这些主要政策背景下,隐私计算得到了政府的大力支持和投入,各地也相继出台了相关的政策和标准(见附录表一),为隐私计算的发展提供了有力的引导。 在技术特点方面,隐私计算能够在不泄漏原始数据的前提下,对 数据进行加工、分析处理、分析验证和联合建模等,为数据的开放共享与隐私保护提供丰富的解决方案。目前,隐私计算的主流技术路线可以分为三类:基于密码学的多方安全计算技术、基于可信硬件的机密计算技术和结合人工智能的联邦学习技术。随着隐私计算技术的发展,逐渐呈现出技术交叉融合应用的发展趋势,以满足实际应用过程中高性能和高安全要求。2022年以来也有越来越多的厂商开始探索技术融合方案,如图联邦、与区块链结合等,同时AI大模型技术的出现也对隐私数据的保护提出了要求,这些新技术的产生背景、技术特点、对隐私计算的影响总结为如下。 表1新技术对隐私计算的影响 技术 背景 技术特点 对隐私计算的影响 区块链结合 隐私计算可以在保证各方原始数据安全的同时,完成对多方数据的融合计算,实现多方数据的“可用不可见”。但数据真实性、数据来源、数据使用及流转过程是否安全和合规是隐私计算技术面临的难点,并且缺乏激励机制、贡献评估和利益分配方案 区块链具有数据可溯源、难以篡改、公开透明、智能合约自动执行等技术特点,能为隐私计算流程中的数据溯源、数据确权,数据市场化等问题提供可行的解决方案 可实现隐私计算过程中的可验证、可追溯、可审计,计算流程中的多方信任,并为进一步建设高效、高安全和高流动性的数据要素市场打下基础 图联邦 由于图数据的数据关联特点,图数据已经广泛应用于金融营销与风控,但由于数据 图数据与联邦学习结合,可通过隐私保护的方式构建一个全局图完成图查 解决图数据在不同单位和机构之间的孤岛问题,扩展隐私计算的应用范围 孤岛问题,实际应用 询任务,也可进行 中多方图数据不能进 多方图学习完成链 行共享分析,价值有 接预测、标签传播 待进一步释放 等任务 AI大模型结合 当前大模型面临着训练数据量不足和质量 大模型通常具有数十亿的参数,训练 联邦学习结合大模型,可一定程度上 不高问题,以及存在 大模型需要大量的 解决大模型训练数 数据泄露风险,隐私 训练数据和计算资 据量不足、用户输 计算通过基于多方数 源,需要从多个数 入数据的泄露等风 据共同训练模型的方 据源获取数据并通 险;可信执行环境 式,可一定程度上解 过数据清洗、加工 结合大模型,可通 决训练数据不足和部 等处理方式获取高 过其硬件隔离和安 分数据泄露问题 质量数据集用于训 全验证机制保护大 练,对数据隐私性 模型在训练和推理 和安全性提出了高 阶段的数据安全 要求 在市场需求方面,我国隐私计算服务的招标项目数量逐年递增,中国信通院根据公开招标数据统计,今年上半年的招标总数已达到2022年全年招标总数的93%(如图1),招标类型从隐私计算平台部署扩展到数据要素流通平台部署及咨询服务。据艾瑞咨询发布的 《2022年中国隐私计算行业研究报告》,2021年中国隐私计算基础产品服务的技术采购中,金融、政务、运营商占据75%~80%的市场份额,医疗领域占比约为10%。2022年-2023年是隐私计算招标爆发的两年,中国信通院根据公开招标数据统计(如图2),不同行业的隐私计算应用场景中金融行业招标占比最高,达到24%,政务行业占比21.5%,通信行业占比15%,高校占比为10.5%,科研机构占比为6%。招标方主要涉及各自领域的机构和单位,如银行、金融机构、 保险、证券、银联、交易所、支付机构、通信运营商、政府部门以及大数据中心等事业单位。同时,根据中国信通院的隐私计算应用调研及联合国大数据工作组近期发布的《联合国官方统计隐私增强技术指南