行业概览| 2023/05 中国:隐私计算系列 摘要 技术路径:多方安全计算、联邦学习、可信任执行环境 隐私计算是指在保护数据本身不对外泄露的前提下实现数据分析计算的技术集合,达到对数据“可用不可见”的目的。在充分保护数据和隐私安全的前提下,实现数据价值的转化和释放。 隐私计算是涵盖了众多学科的交叉融合技术,是一种包含了安全多方技术、同态加密、差分隐私、零知识证明、联邦学习及可信执行环境等主流技术子项的相关技术合集及产品方案。隐私计算三种主流技术路径各有利弊,TEE方案性能最佳,因为本质上是明文计算,并没有加密和扩大数据量级。而基于密码学的MPC在安全性和成本上具备优势,但计算性能较弱。 目前,高速发展的数字经济已成为中国经济增长的核心驱动力之一,而数据作为数字经济的核心生产要素,其中的敏感信息和个人隐私面临泄漏和滥用的风险。未来,随着国家数据要素市场的快速建设,以及相关政策和法规的明晰,“可用不可见”的数据将成为各行业数据流通的主流交易形式。 上游硬件厂商:软硬件协同,一体机成为主流产品形态 软硬件结合提升隐私计算的安全性和性能是目前的主流方案,而隐私计算一体机作为软硬结合一体化专用设备,凭借其安全性、性能、易用性等方面的优势,成为上游硬件厂商争相抢占的赛道。 中游厂商商业模式:含平台建设和数据运营两大类 隐私计算厂商商业模式可分为平台建设和数据运营两大类。其中,平台建设类厂商提供软件、硬件、一体机产品,以解决方案的形式满足客户需求,是目前主流的商业模式。而数据运营类模式目前并不成熟,暂无规模化应用。 Chapter 1 隐私计算行业综述 中国隐私计算行业综述 定义与价值:实现数据“可用不可见” 发展历程:我国隐私计算处于产业快速增长期 需求端:数据安全流通面临广泛关注 政策端:国家重视数据安全流通,出台一系列政策促发展 技术路径:多方安全计算、联邦学习、可信任执行环境 技术路径对比:MPC安全性最佳,TEE性能最强 隐私计算面临的挑战 定义与价值:实现数据“可用不可见” 隐私计算是指在保护数据本身不对外泄露的前提下实现数据分析计算的技术集合,达到对数据“可用不可见”的目的。在充分保护数据和隐私安全的前提下,实现数据价值的转化和释放 隐私计算流程 隐私计算实现数据“可用不可见”,可有效解决隐私保护与利用的矛盾 隐私计算(Privacy computing)是指在保护数据本身不对外泄露的前提下实现数据分析计算的技术集合,达到对数据“可用不可见”的目的。在充分保护数据和隐私安全的前提下,实现数据价值的转化和释放。 近年来,人工智能在金融、政务、医疗、运营商等领域应用广阔,而人工智能技术中的机器学习离不开各领域高质量底层数据的支撑。传统AI需要收集数据样本到一个本地化平台,然后通过集中化的算力训练得出优质的模型。 在通过机器学习训练样本的时候,会衍生出两大问题:训练数据样本是如何流通的? 数据是否得到了授权?尤其是个人隐私甚至事关国家安全的关键信息。因此,在数字经济趋势和数据安全保护的大背景下,隐私计算应运而生。 从数据拥有方的角度来看,因为数据并不会出库,数据的隐私保护问题自然迎刃而解。 而从数据使用方的角度来看,他们实际上要的不是数据本身,而是数据在某个特定场景下的评分,即模型的结果。因此,隐私计算可有效解决数据隐私保护与利用的矛盾。 发展历程:我国隐私计算处于产业快速增长期 隐私计算技术最早可追溯到20世纪40年代,目前我国隐私计算处于产业快速增长期。未来,随着国家数据要素市场的快速建设,以及相关政策和法规的明晰,“可用不可见”的数据将成为各行业数据流通的主流交易形式 隐私计算发展历程 日本新版《个人信息保护法》正式生效。 隐私计算技术最早可追溯到20世纪40年代,目前我国隐私计算处于产业快速增长期 隐私计算技术可以追溯到1949年由香农开启的现代密码学时代,之后不断演进,融合了密码学、人工智能、计算机科学和安全硬件等众多领域技术。总体来说,全球隐私计算可分成三大发展阶段。 萌芽期(1949年-1981年):加密需求出现。现代信息学之父于20世纪40年代发表的一篇重要论文《保密系统的通信理论》,被认为是现代密码学时代的开端。 探索期(1982年-2016年):主流技术路线出现。随着多方安全计算、联邦学习、可信执行环境等隐私计算技术的出现和发展,隐私计算技术日趋成熟。 增长期(2017-2025年):多行业的需求方和厂商陆续加入。专利、论文、标准、政策、实施案例相继涌现。该时期各国政府逐渐加强对数据安全和个人隐私保护的重视,各项政策法规陆续制定,基于计算机算技术的数据流通产品得到不断探索和实践。 未来,随着国家数据要素市场的快速建设,以及相关政策和法规的明晰,隐私计算的应用场景将更加广泛,“数据可用不可见”将成为各行业数据流通的主流交易形式。 需求端:数据安全流通面临广泛关注 高速发展的数字经济已成为中国经济增长的核心驱动力之一,而数据作为数字经济的核心生产要素,其中的敏感信息和个人隐私面临泄漏和滥用的风险,隐私计算技术正是保障数据安全流通的有效方式 中国数字经济规模、同比名义增长及占GDP比重,2017-2022年 高速发展的数字经济为中国经济增长的核心驱动力之一 完整版登录www.leadleo.com 目前,高速发展的数字经济已成为中国经济增长的核心驱动力之一,中国数字经济规模由2017年的27.2万亿元增至2022年的50.2万亿元,总量位居世界第二,同比名义增长10.3%,占国内生产总值比重提升至41.5%。 搜索《2023年中国隐私计算行业:专用芯片助力隐私计算突破性能瓶颈》 中国数据产量及全球占比情况,2017-2022年10 10.5%8 中国数据交易机构数量增长情况,2014-2022年60 11%11%10% 48 9.9% 50 40 30 20 10 0 42 9.6% 9.3% 6 4 2 0 9.1% 3310% 8.8% 9%9%8%8% 20172018 2019 2020 2021 2022 我国数据产量(ZB) 总量(家) 新增数量(家) 我国数据产量全球占比(%) 数据是我国数字经济建设的核心生产要素,其中的敏感信息和个人隐私面临泄漏和滥用的风险 数据资源是我国数字经济建设的核心生产要素。2022年,中国数据产量达8.1ZB,同比增长22.7%,占全球数据总产量10.5%,位居世界第二。同时,数据资源流通不断加快。截至2022年底,全国已成立48家数据交易机构。随着数据体量的不断壮大,以及数据流通的不断加快,数据要素中的敏感信息及个人隐私面临泄漏和滥用的风险,因此数据流通安全成为数字产业建设面临的挑战之一。隐私计算可实现数据的“可用不可见”,是目前保障数据安全流通的有效方式,势必在未来得到规模化应用。 政策端:国家重视数据安全流通,出台一系列政策促发展 国家高度重视数据安全流通问题,并出台一系列政策如《关于构建数据基础制度更好发挥数据要素作用的意见》、《全国一体化政务大数据体系建设指南》等,旨在支持数据流通相关技术,隐私计算技术正是其一 隐私计算相关政策 政策 发布时间 发布主题 政策内容 数字经济已成为我国经济增长的主要驱动力之一,而数据正是数字经济的核心生产要素。国家高度重视数据安全流通问题,隐私计算作为保障数据安全流通的有效方式,得到了国家一系列政策的支持。 技术路径:多方安全计算、联邦学习、可信任执行环境 隐私计算是涵盖了众多学科的交叉融合技术,是一种包含了安全多方技术、同态加密、差分隐私、零知识证明、联邦学习及可信执行环境等主流技术子项的相关技术合集及产品方案 隐私计算技术路径 隐私计算的主流技术路径包括:安全多方计算MPC、联邦学习FL、可信任执行环境TEE 隐私计算是涵盖了众多学科的交叉融合技术,是一种包含了安全多方技术、同态加密、差分隐私、零知识证明、联邦学习以及可信执行环境等主流技术子项的相关技术合集及产品方案。 多方安全计算(MPC):多方安全计算(SecureMulti-partyComputation,MPC)是一种密码学领域的隐私保护分布式计算技术。安全多方计算能够使多方在互相不知晓对方内容的情况下,参与协同计算,最终产生有价值的分析内容。实现原理上,安全多方计算并非依赖单一的安全算法,而是多种密码学基础工具的综合应用,包括同态加密、差分隐私、不经意传输、秘密分享等,通过各种算法的组合,让密文数据实现跨域的流动和安全计算。 联邦学习(FL):联邦学习(Federated Learning,FL)又名联邦机器学习、联合学习。相比于使用中心化方式的传统机器学习,联邦学习实现了在本地原始数据不出库的情况下,通过对中间加密数据的流通和处理,来完成多方联合的学习训练。它一般会利用分布式数据来进行本地化的模型训练,并通过一定的安全设计和隐私算法(例如同态加密、差分隐私等),将所得到的模型结果通过安全可信的传输通道,汇总至可信的中心节点,进行二次训练后得到最终的训练模型。由于密码学算法的保障,中心节点无法看到原始数据,而只能得到模型结果,因此有效地保证了过程的隐私。 可信任执行环境(TEE):可信任执行环境(Trusted Execution Environment,TEE)指的是一个隔离的安全执行环境,在该环境内的程序和数据,能够得到比操作系统层面(OS)更高级别的安全保护。其实现原理在于通过软硬件方法,在中央处理器中,构建出一个安全区域,计算过程执行代码TA(TrustApplition)。 其仅在安全区域分界中执行,外部攻击者无法通过常规手段获取和影响安全区的执行代码和逻辑,同时计算数据通过相关密码学算法加密,来保证数据只能在可信区中进行计算。 技术路径对比:MPC安全性最佳,TEE性能最强 隐私计算三种主流技术路径各有利弊,TEE方案性能最佳,因为本质上是明文计算,并没有加密和扩大数据量级。而基于密码学的MPC在安全性和成本上具备优势,但计算性能较弱 隐私计算技术路径特性对比——多方安全计算vs联邦学习vs可信执行环境技术 多方安全学习MPC 联邦学习FL 可信执行环境(TEE) 数据 隐私计算面临的挑战 目前,我国隐私计算正处于快速发展期,但其仍面临着性能瓶颈阻碍市场规模化应用,安全性挑战影响市场信任,以及互联互通壁垒使得数据“孤岛”变“群岛”三大挑战 隐私计算面临的挑战 性能瓶颈阻碍隐私计算规模化应用 安全性挑战影响市场信任 算法协议尚未绝对安全 产品开发过程存在安全隐患安全性共识有待形成 密文计算增大通信负载,导致性能瓶颈 计算或通信资源受限方影响平台整体性能,存在“短板效应” 不同机构间合作易出现平台重复建设的问题 互联互通壁垒或使数据“孤岛”变“群岛” 异厂商隐私计算平台互联互通存在壁垒 完整版登录www.leadleo.com 搜索《2023年中国隐私计算行业:专用芯片助力隐私计算突破性能瓶颈》 隐私计算实现数据“可用不可见”,可有效解决隐私保护与利用的矛盾 目前,我国隐私计算产业处于快速发展期,其可解决企业和机构面临的数据合规难题,为数据安全制度落地提供有力的技术支撑。然而,隐私计算在安全性、性能和数据的互联互通等方面仍面临诸多挑战。 安全性:(1)算法协议尚无法实现绝对安全。一方面,隐私计算产品的算法协议差异化较大,难以形成统一的算法安全基础。如多方安全计算、同态加密等密码学算法基于数学与密码学基础,联邦学习等隐私机器学习安全基于机器学习理论、差分隐私和相关密码学协议,可信执行环境则更多依赖于硬件厂商的安全技术;(2)开发应用安全同样存在挑战。在假定算法协议安全达成的情况下,一方面隐私计算产品面临生产化过程中产生的安全问题,如密码学算法遇到侧信道攻击、错误注入攻击,硬件遇到的侵入式攻击等。另一方面,第三方机构的计入也会引起安