引言 ■公共数据开放的现状与挑战 ■公共数据开放利用中的现有安全管理方式 ■隐私计算作为新型数据安全技术的潜在优势与应用场景 ■隐私计算在公共数据开放领域的应用展望 ■总结与建议 附录 001 003 007 011 015 019 020 001 一、引言 数据是数字化发展的基本要素。进入数字时代,人类获取、管理和利用数据的能力空前提升,社会各界对数据的价值也愈发重视。2020年4月,中共中央、国务院发布的《关于构建更加完善的要素市场化配置体制机制的意见》明确提出将数据作为一种新型生产要素,与土地、劳动力、资本、技术等传统要素并列,要求“加快培育数据要素市场,推进政府数据开放共享、提升社会数据资源价值、加强数据资源整合和安全保护”。 数字化发展需要整合和利用各种来源的数据,而政府部门在履职过程中生成、获取和保存了大量基础性、关键性的数据资源,是一个国家最重要的数据保有者。在工业时代,政府在大型公共基础设施的建设中发挥了主导作用;在数字时代,公共数据作为一种新的基础设施,将和物理基础设施同等重要。在不涉及国家秘密、商业秘密、个人隐私的前提下,把公共数据开放给社会进行融合利用,将有力促进数字经济和数字社会的发展。因此,开放公共数据,构筑公共数据基础设施,是数字化发展的现实需要,也是政府在数字时代的责任。 近年来,公共数据开放已成为国家政策的重要关切。2020年4月发布的《关于构建更加完善的要素市场化配置体制机制的意见》要求推进政府数据开放共享,研究建立促进公共数据开放和数据资源有效流动的制度规范。2021年3月发布的《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》中提出要“扩大基础公共信息数据安全有序开放,探索将公共数据服务纳入公共服务体系,构建统一的国家公共数据开放平台和开发利用端口,优先推动企业登记监管、卫生、交通、气象等高价值数据集向社会开放”。2021年12月,国务院印发的《“十四五”数字经济发展规划》要求“建立健全国家公共数据资源体系,统筹公共数据资源开发利用,推动基础公共数据安全有序开放,提升公共数据开放水平,释放数据红利”。2022年6月,国务院印发的《关于加强数字政府建设的指导意见》也要求“编制公共数据开放目录及相关责任清单,构建统一规范、互联互通、安全可控的国家公共数据开放平台,分类分级开放公共数据,有序推动公共数据资源开发利用,提升各行业各领域运用公共数据推动经济社会发展的能力”。 002 然而,公共数据开放的价值与风险并存。一方面,公共数据开放能够释放经济、社会、政治价值,另一方面,公共数据开放也存在诸多潜在风险。一是在数据存储和流通过程中存在数据泄露的风险,可能危及国家秘密、商业机密和个人隐私。二是开放数据面临被不合规利用的风险,数据被误用或滥用会损害公共利益和第三方利益。因此,在数字化发展的背景下,如何安全合规地推动数据的高质量供给与有序利用就成为了重要且紧迫的议题。 为应对公共数据开放与利用中的安全风险,各地政府已从管理体制和技术手段方面展开了诸多探索实践,如建立全生命周期安全管理机制,推进公共数据分级分类开放,以及应用数据加密、数据脱敏、数字水印、数据沙箱等技术手段加强安全保障等。然而,公共数据开放在数据安全保护方面仍存在一些未能完全解决的问题,阻碍了高价值公共数据的开放。 隐私计算作为一种新兴的数据安全技术,有望在保护多个参与主体的数据本身不对外泄露的前提下,实现数据融合分析计算与价值挖掘,通过“原始数据不出域”、“数据可用不可见”以及“数据用法用量可控可计量”等特性,显著降低公共数据开放与利用的风险,成为平衡公共数据开放价值释放与风险管控的助推器,以此推动公共部门开放更多的高质量数据,促进市场和社会的数据利用。 003 二、公共数据开放的现状与挑战 (一)现状与问题 我国的公共数据开放起步于地方自主探索。2012年6月,上海市政府数据服务网“datashanghai.gov.cn”(原网址)上线运行,标志着我国内地的公共数据开放实践拉开序幕。其后,全国各地相继上线公共数据开放平台。截至2021年10月,我国已有193个省级和城市的地方政府上线了数据开放平台,其中省级平台20个(含省和自治区,不包括直辖市和港澳台),占全部省级地方的71.43%;城市平台173个(含直辖市、副省级与地级行政区),占全部城市的51.33%,如图1所示。 ■图1中国各省域平台整体上线情况地理空间分布 004 近年来,我国公共数据开放水平正在逐步提升。在制度供给方面,与公共数据开放相关的法律法规、实施细则、标准规范等陆续出台和完善。在平台建设方面,各地公共数据开放平台的功能逐渐扩展和优化,运营维护能力与用户实际体验也在不断提升。在数据供给方面,各地开放数据的数量与质量也在逐步提升。在利用生态方面,各种利用促进活动正在开展和推进,企业、公众等各种社会主体越来越多地参与利用开放数据,也产出了一定数量的利用成果。 然而,推进我国公共数据高质量开放利用,仍存在许多问题和短板。总体上,市场和社会对公共数据的需求尚未得到充分满足,表现为开放数据数量不多、容量较低、质量不高,已开放数据普遍存在字段少、条数少、颗粒度较粗等问题,以API接口形式开放的实时、动态、高容量数据尤为稀少。此外,在已开放数据中还存在高缺失、低容量、碎片化等低质量数据,数据利用价值较低;而数据供给端的不足还造成了利用端的成果数量少、质量不高等问题。 005 (二)困境与挑战 (1)数据开放与数据安全之间的平衡困境 公共数据供给不足的问题在较大程度上受制于数据开放与数据安全之间的平衡困境。国家政策与社会公众对数据安全的重视程度不断提升,保护公共数据安全已成为开放与利用数据的前提。有关数据安全的法律政策体系也逐步建立起来。在顶层设计上,《中华人民共和国网络安全法》、《中华人民共和国数据安全法》以及《中华人民共和国个人信息保护法》从不同程度上提出要在保障数据安全和个人信息的前提下促进公共数据的开放利用;在实践规划上,《“十四五”大数据产业发展规划》等政策文件中均强调了在数据流通过程中保障数据安全的重要性。 虽然数据只有被利用了才能产生价值,但由于数据开放和利用过程中存在的各类安全隐患增加了相关部门所承担的风险,数据泄露、隐私风险等安全隐患的客观存在降低了数据提供部门的开放数据的意愿和动力,导致数据供给部门在数据数量、数据质量、数据开放范围等方面较为保守,未能充分满足社会对公共数据开放利用的需求。 (2)数据开放面临的各类安全风险和顾虑 《“十四五”国家信息化规划》将数据全生命周期的安全管理划分为数据收集、汇聚、存储、流通、应用等阶段,公共数据在开放利用的各个阶段均存在着不同类型的安全风险与挑战: 第一,数据汇聚与存储中的风险。当前我国公共数据开放主要采用“部门数据供给-数据资源汇集-数据平台开放”的形式,供给数据过程中的可见性存在数据泄露、数据篡改、数据被重新识别等隐患,也对平台方内部工作人员的素养和技能提出了较高的要求;而数据资源的汇聚使得部分数据管理的主动权从数据提供部门转移到数据开放平台的管理方,而数据平台又存在被恶意攻击、数据泄露等安全隐患,数据平台的安全防护面临较大压力。 006 第二,数据流通与利用中的风险。这类风险主要体现在两个方面:一是在数据提供部门在将数据提供到数据平台后,对部分数据缺乏监测与控制,无法对数据利用过程及结果进行追踪,难以监管数据应用的合规性与正当性,且现行脱敏技术手段并不能解决所有的隐私问题,在数据利用过程中仍有通过数据拼凑还原个体数据的可能,使个人信息面临泄露风险。二是对于有较高安全级别的数据,我国目前多采用对满足申请条件的用户以有条件的、受限的方式进行开放,而由于缺乏对数据利用场景的监测,存在数据由满足申请条件的用户流通至不满足申请条件的用户从而导致数据泄露和违规利用的风险。目前国家尚没有制定统一的公共数据分类分级标准,各地方部门对数据安全的管控手段主要还是以严格控制数据出域和严格制定数据获取条件为主,也因此间接导致了数据供给不足和数据获取门槛过高等问题。 007 三、公共数据开放利用中的现有安全管理方式 为了应对上述公共数据开放利用中的安全问题,当前各地方政府在保障公共数据安全开放方面已经开展了诸多实践探索。数据安全保障举措一方面聚焦于管理体制的建立健全上,另一方面则体现为对新兴数据安全技术的积极运用上。 (一)体制机制 数据安全,制度先行,公共数据开放的安全保障需要依赖管理体制机制的不断完善。各地针对数据开放全生命周期的安全风险,围绕事前的数据安全处理、事中的数据安全监控与事后的行为处置等方面都探索出了一些新的管理体制与机制。 一是建立全生命周期安全管理机制。部分地方致力于在数据开放与利用的过程中,建立数据安全事件的风险预判、识别、预警、监测与控制机制,制定应急处置预案与应急响应程序,定期开展应急演练,准备应急队伍与专家资源等。在数据开放准备阶段,对于一些高价值的敏感数据集,通过数据脱敏方式在降低安全风险的前提下对社会公众予以开放。例如,山东省在《公共数据开放》标准中编制了《数据脱敏指南》,对敏感数据的识别、标识、场景确定及脱敏操作等进行了规定,以指导公共数据的脱敏工作。在数据开放后,针对已发生的数据安全事件,多地建立了事后处置追责机制,对违规数据利用主体,会依据情节轻重处以记录信用档案、追究法律责任、行政处罚等不同措施;对违规的公共数据开放主体,则会处以行政处分、限期整顿等处罚措施。 008 二是实施公共数据的分级分类开放。例如,浙江省出台了《公共数据开放与安全管理暂行办法》,将公共数据分为禁止开放类、受限开放类、无条件开放类三种类型,并将公共数据的秘密级别划分为国家秘密、商业秘密和个人隐私三个类别,对不同类型与层级的公共数据进行分类管理。对于“无条件开放类”公共数据,利用主体可以自由获取使用,而无需进行申请审批;而对于“受限开放类”的公共数据,则要求公共数据开放主体和公共数据利用主体签署“公共数据开放利用协议”,对数据利用情况、数据利用用途、数据利用安全职责、保障措施等作出明确约定。 三是明确数据利用主体的安全义务。各地数据开放平台在利用主体获取数据时,会通过协议签署的方式告知其数据安全义务,以落实数据利用主体的责任。例如,山东省数据开放平台在下载无条件开放数据时,会以弹框提示的方式提醒利用主体阅读协议,让其知悉保护数据安全方面应履行的义务,并以“已详细阅读该协议”作为获取数据的条件;对于有条件开放类数据,数据开放部门则会在通过对利用主体的申请审核后,会与利用主体签订数据开放利用协议,明确数据安全保护义务。 009 (二)技术手段 公共数据的安全有序开放离不开技术工具的保障。当前,在公共数据开放领域使用较多的主要有数据加密、数据脱敏、数字水印、数据沙箱等数据安全技术。 数据加密技术是指以密码技术为基础对数据进行编码转化,从而让攻击者无法获取有价值的信息,而拥有密钥的一方可从乱码中恢复原始数据。数据加密技术可用于满足数据全 生命周期的各个环节的安全需求。在本文中,为了同其他数据安全技术区分,将哈希算法、数字签名等传统密码学技术一并统称为数据加密技术。 数据脱敏技术是指对数据中包含的秘密或隐私信息(如个人身份数据、商业机密数据等) 进行数据变形处理,使得恶意攻击者无法从经过处理后的数据中直接获取敏感信息,从而实现对机密及隐私信息的保护。 数字水印技术是指在数据流通时,在提供方原始数据中嵌入具有可鉴别性的数字信号, 从而实现溯源追踪的能力。 数据沙箱技术是指利用数据脱敏、加密、权限管理等技术,从网络、数据、业务等多层次建立安全隔离环境,并将数据放置在隔离环境中,并在隔离的沙箱内部进行计算,用户 只能从沙箱中获取经过审核确认的计算结果,但无法取走原始数据,从而保证数据的安全。 在数据开放利用的过程中,以上各类技术手段在兼顾数据的安全性和可用性方面各有利弊,其特性比较如表1所示。 ■表