隐私计算产品通用安全分级白皮书 (2024年) 2024年7月 版权声明 本报告版权属于蚂蚁科技集团股份有限公司、中国通信标准化协会大数据技术标准推进委员会、深圳国家金融科技测评中心、清华大学,并受法律保护。转载、摘编或利用其它方式使用本报告文字或者观点的,应注明“来源:隐私计算产品通用安全分级白皮书(2024)”。违反上述声明者,本机构将追究其相关法律责任。 编制说明 编写指导组(排名不分先后): 王小云中国科学院院士、国际密码协会会士(IACRFellow)韦韬蚂蚁集团副总裁兼首席技术安全官 任奎浙江大学计算机科学与技术学院院长、区块链与数据安全全国重点实验室副主任 李肇宁交通银行金融科技创新研究院、网络金融部总经理何宝宏中国信息通信研究院云计算与大数据研究所所长钟剑深圳国家金融科技测评中心有限公司董事长 主编单位(排名不分先后):蚂蚁科技集团股份有限公司、中国通信标准化协会大数据技术标准推进委员会、深圳国家金融科技测评中心、清华大学。 参编单位(排名不分先后):北京银联金卡科技有限公司、招商银行股份有限公司、中国银行股份有限公司、交通银行股份有限公司、浙江网商银行股份有限公司、深圳前海微众银行股份有限公司、杭州高新区(滨江)区块链与数据安全研究院、中国人民大学信息学院、杭州数据交易所、天翼电子商务有限公司、中移信息技术有限公司、联通数字科技有限公司、深圳市洞见智慧科技有限公司、华控清交信息科技(北京)有限公司、北京冲量在线科技有限公司、深圳市纽创信安科技开发有限公司。 参编人员(排名不分先后):潘无穷、王磊、吴莹、彭晋、廖威、徐基明、刘双、季雨洁、李宏宇、洪澄、周启贤、李婷婷、张晓蒙、黄琳、方文静、李漓春、翁海琴、沈桢天、段然、王明华、胡树伟、李超、许晓琦、刘焱、昌文婷、杨冰然、肖俊贤、姜春宇、袁博、王思源、白玉真、贾轩、杨靖世、童锦瑞、杨晓芸、董晶、许晋元、罗丰、叶晓聪、袁荣婷、刘强军、黄榴勇、 钱智超、王安宇、冉德龙、丛天硕、杨波、邱晓慧、谭亦夫、胡师阳、佟冬、傅杰、葛明嵩、张翼飞、石新蕾、谢谨、钱菲、张园超、谢宗华、陆茂斌、李辉忠、李贺、李昊轩、陈宇杰、王朝阳、杨萌、贾祥娟、张秉晟、毛应波、刘健、薛峰、黄科满、林洋、潘凯伟、周宇、贺伟、朱江、张金杰、郭叶、茹志强、降鑫磊、刘洋、孙林、王项男、贾晓芸、何浩、姜峰、王煜坤、靳晨、陈浩栋、宋雨筱、刘尧、朱凯。 序言 党的十九届四中全会指出:“健全劳动、资本、土地、知识、技术、管理、数据等生产要素由市场评价贡献、按贡献决定报酬的机制”,首次将数据增列为新的生产要素。数据作为关键的生产要素之一,通过跨地域、跨行业、跨领域、跨机构的数据流通释放价值。然而,近几年数据泄露和滥用的上升趋势表明,数据流通仍存在诸多问题。如何在安全风险可防控的前提下,实现数据的高效流通和交易成为当前数据价值释放面临的首要任务。 数据流通具有双面性:数据价值越高,流通过程中的风险越大。如何让大规模高价值数据进行可信流通,成为数据要素市场发展的核心议题。传统的数据安全问题是数据流通内循环问题:数据持有方,也是系统的运维管理方,对自己的数据安全负全责。随着数据要素市场的发展,数据流通外循环是更为关键的问题。外循环指的是,数据要素离开了数据持有方的安全域进行流通,此时数据持有方和系统运维方不同。这给数据流通带来全新的挑战:流通链路上相关运维管理方有窃取数据的动机和可能,则原有的、依赖运维管理方构建的安全防御措施全部失效,数据持有方难以有效保护和管控自己的数据。这也是导致数据持有方不敢提供数据、不愿参与数据流通的重要原因。 隐私计算有多个起源,目前在工业界广泛使用的隐私计算特指隐私保护计算(Privacy-preservingcomputing,PPC),也称为隐私增强计算(Privacy-enhancingcomputing,PEC),在工业界习惯性简称为隐私计算。广义隐私计算是面向隐私信息全生命周期保护的计算理论和方法,涵盖信息所有者、信息转发者、信息接收者,在信息采集、存储、处理、发布(含变换)、销毁等全生命周期过程的所有计算操作,是在保护隐私安全的前提下,实现数据 安全共享的一系列技术。隐私计算为数据外循环提供全流程可信保障,并已经成为促进数据要素跨域流通和应用的核心技术领域,广泛应用于金融、政务、医疗、能源、制造等诸多行业。2020年4月,《工业和信息化部关于工业大数据发展的指导意见》提出激发工业数据市场活力,支持开展数据流动关键技术攻关,建设可信的工业数据流通环境。2021年5月印发的《全国一体化大数据中心协同创新体系算力枢纽实施方案》提出,促进数据有序流通,试验多方安全计算、区块链、隐私计算、数据沙箱等技术模式,构建数据可信流通环境,提高数据流通效率。2022年10月国务院办公厅印发的《全国一体化政务大数据体系建设指南》提出探索利用核查、模型分析、隐私计算等多种手段,有效支撑地方数据资源深度开发利用。 隐私计算技术可以在保护隐私安全的前提下实现数据可信流通,最小化数据泄露的可能性,从而极大地促进数据流通的发展和降低安全风险,实现整体社会价值最大化。然而,在实际应用中,各场景中的参与方信任程度不同、数据类型不同,各方在不同场景里需要达到的数据可控程度也是不同的,一味追求绝对安全或者忽视安全都是不可取的。所以,隐私计算产品需要安全分级方法,为实际产品选型提供指导。一方面,隐私计算技术路线众多,且不断有新的技术涌现,使用方难以评估这些技术的安全程度。另一方面,由于部分隐私计算技术性能较低,市场上存在牺牲安全性换取性能的产品。在不明实况的情况下,使用方可能会更青睐这些产品,从而出现劣币驱逐良币的现象。目前,虽然针对单一技术路线已经有一些安全分级标准,但是不同技术路线的分级标准完全无法对应,用户无法对所有的产品进行横向比较,这些标准也不适用于新出现的技术路线。因此,适用所有技术路线的通用安全分级思路亟需明确,来引导数据跨域流通全领域的安全评估工作,进而推 进更宽广的隐私计算运用,加速数据可信流通的发展。 建立统一的安全分级体系来评估数据流通链路的安全性需要多行业各方参与,久久为功。以前针对单一隐私计算技术路线进行分级时,可以依靠技术特征来分级。但是,隐私计算包含的分支技术各自有不同的安全根基,技术特征完全不同,无法沿用该思路进行通用安全分级。如何对这些原理完全不同的技术进行统一分级,是十分有挑战的。更进一步,中间变量泄露如何量化、半诚实密码协议的实际安全效果如何、侧信道攻击对可信环境的安全影响有多大,这些内容的量化仍然缺乏有效方法或者存在争议。从另一个方面考虑,目前的一些分级方法侧重于评估技术原理和方案设计。但是,从“设计安全”到“真正安全”仍然有较大距离,即,实现环节的安全性。若分级标准缺乏对“实现环节的安全性”的度量,产品获得的等级与实际攻防效果将不匹配,导致安全隐患或成本过高。此外,除了隐私计算核心技术模块,通信框架、访问控制系统、主机系统、管理系统、部署系统等都会影响产品整体的安全性,安全分级应该包括这些内容,系统整体的安全性应由其中最薄弱的环节来界定。本《白皮书》旨在逐一讨论隐私计算安全分级面临的诸多难点,包括技术路线特征不同难以进行统一分级、部分重要的安全能力难以被分级和量化、安全是系统性问题涉及的维度多、范围广。本文针对以上挑战,给出通用安全分级的设计思路,包括按照攻防效果分级来屏蔽不同技术路线差异,在“可证安全”和“不安全”之间增加一个“抵御已知攻击”的分级水位,引入软件信誉度等更多维度量化“实现安全”,明确所有技术特征与安全分级的对应关系。 当前,围绕隐私计算安全标准化与安全分级问题,中国通信标准化协会 CCSA已推动完成了包括YD/T4690-2024《隐私计算多方安全计算产品安 全要求和测试方法》、YD/T4691-2024《隐私计算联邦学习产品安全要求和测试方法》、YD/T4947-2024《隐私计算可信执行环境产品安全要求》三项针对隐私计算细分技术安全的行业标准,对各分支技术路线的安全风险进行了全面梳理。基于隐私计算安全分级标准需求的紧迫性,由深圳国家金融科技测评中心牵头,联合北京银联金卡科技有限公司、蚂蚁科技集团股份有限公司、杭州高新区(滨江)区块链与数据安全研究院、北京冲量在线科技有限公司、深圳市洞见智慧科技有限公司、天翼电子商务有限公司、深圳市纽创信安科技开发有限公司、杭州超限数动科技有限公司共同编制的Q/NFEC0001—2024《隐私计算产品安全能力分级要求》标准于2024年2月正式发布实施,该标准是国际上首个适用于不同隐私计算技术路线的通用安全分级标准,根据攻防效果结合不同应用场景安全需求对安全等级进行了五级划分并提出了具体要求。 本文将在《隐私计算产品安全能力分级要求》标准的基础上,对隐私计算产品通用安全分级涉及的一系列问题与解决思路展开介绍。 一、隐私计算技术背景与概览 数据要素流通为社会经济创造巨大价值,也对数据安全与隐私保护等方面提出了更高要求。隐私计算技术作为保障数据可信流通的有效方式,已逐渐成为促进数据要素跨域流通和应用的核心技术。 隐私计算主要分为算法类、可信类、融合类三大类技术,本章对隐私计算主流技术路线进行简要介绍。 二、隐私计算产品通用安全分级的挑战与思路 介绍制定隐私计算安全分级面临的诸多难点,包括技术路线特征不 同难以进行统一分级、部分重要安全能力难以被分级和量化、安全是系统性问题涉及的维度多、范围广等。 针对以上挑战,本章介绍了通用安全分级设计思路,包括按照攻防效果分级来屏蔽不同技术路线的差异,在“可证安全”和“不安全”之间增加一个“抵御已知攻击”的分级水位,引入软件信誉度等更多维度来量化“实现安全”,明确所有技术特征与安全分级的对应关系。 三、隐私计算产品通用安全分级介绍 本章分不同维度详细介绍了各个等级的安全要求,包括所有隐私计算技术产品都要遵守的通用要求,以及算法类技术产品和可信类技术产品各自要遵守的扩展要求。 同时将中间结果细分为直接中间结果和间接中间结果,提出基于自由度和基于熵两种量化中间结果泄露程度的方法。 四、隐私计算产品通用安全的场景应用 通用安全分级在实际应用中,各场景对应的参与方信任程度不同、数据类型不同,各参与方需要达到的数据可控程度也是不同的。来自金融、通信、教育等行业的数据安全应用需求方参与了本《白皮书》的编制,并结合实践阐述针对具体应用场景的安全需求。本章对基于不同业务场景的安全水位要求应该采用的安全等级提出了建议。 五、总结和展望 总结通用安全分级在分级思路、涵盖范围、特定问题的度量方法上都有突破创新,实现对不同技术路线、不同产品形态进行统一分级的目标,便于使用方根据实际的应用场景进行产品选型。 附录 对联邦线性回归算法和联邦SecureBoost算法的中间变量泄露进行了详细分析,最终给出了泄露程度与样本数、特征数、训练轮数之间的数学关系。 目录 一、隐私计算技术背景与概览1 (一)数据要素流通面临的安全风险1 (二)隐私计算核心技术介绍1 二、隐私计算产品通用安全分级的挑战与思路9 (一)隐私计算产品通用安全分级的挑战9 (二)隐私计算产品通用安全分级设计思路11 三、隐私计算产品通用安全分级介绍18 (一)通用安全分级的安全要求18 (二)约定可泄露信息34 四、隐私计算产品通用安全分级的场景应用41 (一)隐私计算典型应用场景与发展情况41 (二)应用场景安全等级建议42 五、总结与展望45 附录:约定可泄露信息分析参考示例46 (一)联邦线性回归46 (二)联邦SecureBoost56 一、隐私计算技术背景与概览 (一)数据要素流通面临的安全风险 数据流通能够为企业和社会创造更多价值,有效推动数字经济快速发展,但同时,也对数据安全与隐私保护等方面提出了更高要求,主要体现在以下几点。 一是,数据流通具有双面性:数据价值越高,流通过程中的风险越大。数据具有易复制、非竞争、非排他等属性,能够