数据安全合规产品白皮书 背景介绍 近年来国家陆续出台法案促进数据要素市场化,如《促进大数据发展行动纲要》、《中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见》、《中共中央关于制定国民经济和社会发展第十四个五年规划和二〇三五年远景目标的建议》等。于此同时,数据要素的安全流通需要遵守《数据安全法》、《个人信息保护法》等法律法规,尤其是对个人敏感数据、行业重要数据的处理需要考虑安全以及合规的风险。相关数据若在流通过程中发生泄露、盗取、恶意篡改等情况,将对个人以及国家利益造成损害。 因此,如何安全合规的促进要素流通是众多数据提供方与数据消费方想要迫切解决的问题。 《数据安全法》《个人信息保护法》 《数据出境安全评估办法》 《金融数据安全分类分级》 《关于构建数据基础制度更好发挥数据要素左右的意见》 企业安全合规 跨境 数据流通交易 《个人金融信息技术保护规范》 《上海市数据条例》 《汽车数据安全管理办法》 ... ... 《重要数据识别指南》 《深圳经济特区数据条例》 产品定位与构架 全链路数据安全合规体系 星环数据安全产品主要分为数据安全管理平台TranswarpDefensor、数据安全网关产品TranswarpMidgard和TranswarpQuark、数据安全审计监测工具Audit。星环通过AI智能化与大数据分析技术,在数据安全领域帮助企业实现事前可知可防、事中可控、事后可查的全链路数据安全合规技术体系。 事前可知可防 事中可控 事后可查 资产盘点 动态脱敏 行为监测 权限与访问策略 事中阻断 操作溯源 数据脱敏 TranswarpMidgard 数据API安全网关 告警处置 TranswarpDefensor 安全管理平台 TranswarpQuark 数据SQL网关 TranswarpAudit 数据监测与审计 核心能力 大模型+数据血缘分析 分布式高性能脱敏平台 •基于分布式技术的高性能静态脱敏平台满足大数据量脱敏场景支持仿真脱敏、随机替换、国密加密等脱敏加密手段。 •支持行列过滤的细粒度脱敏子集管理。 •结合大模型智能分析技术自动化发现敏感资产并分类分级降低 人工打标的投入成本,通过血缘分析识别敏感资产链路传播,提高分类分级覆盖率,真正做到应分尽分。 全局策略防护 动态脱敏,业务无侵入 •在Adhoc数据库查询场景,Inceptor/ArgoDB基于防护策略进行动态脱敏,无需业务改造,无需对数据预先脱敏。 •在API数据分享场景,Midgard基于防护策略实现API动态 脱敏,并支持原有API接口的平滑迁移。 •构建数据安全防护的全局策略中心,实现用户防护策略、IP 等属性防护策略的全局管理与下发 •支持多域场景下的跨域协同。 产品方案介绍 事前可知可防 分类分级 Defensor提供多种数据识别方式,企业安全人员可以根据不同的资产现状,灵活组合,实现全方位数据资产盘点与分类分级。 人工打标和补录完成剩余部分 人工补录分类分级信息。 基于血缘识别衍生敏感资产 基于血缘识别数据加工链路中产生的衍生敏感资产。 Defensor 多种识别方式 基于规则半自动化识别特征明显的数据 基于预置或自定规则,通过正则、算法、字典等方式对元数据进行识别。 基于知识库与大模型智能盘点大部分资产 通过行业知识库与大模型,对元数据进行语义分析,实现智能化敏感数据识别。 基于机器学习的分类分级 在大数据量、业务复杂、数据治理不够充分的情况下,传统基于数据血缘、规则的方法要么失效,要么需要耗费大量人力。因此,引入人工智能技术变得尤为重要。我们的解决方案利用自动化工具链,预训练的大模型和强化学习机制,实现了对数据资产的智能打标和预测。 数据访谈 分类分级辅助工具 AI训练 分类分级标准 元数据分析器 加样本训练 精匹配 标签自动映射 低质量类别 反馈循环 扫描工具 高质量类别 领域知识学习 粗匹配 标准 对比 自动判断 出口 语义信息补充 资产扫描结果 基于规则的分类分级 •预置100多条金融行业与个人信息数据识别规则,开箱即用。 •支持通过正则、字典、算法等多种匹配方式,对表名、表注释、字段名、字段注释、字段内容等多个域进行匹配。 •支持"与"、"或"、"非"复杂规则条件组合。 1 设置数据安全规则,创建 分类分级或数据发现任务 数据管理员 分类分级与 调度引擎 定时任务调度,往目标数 据库发送相关的业务SQL 2 关系数据库 3 任务结果返回 并持久化 大数据平台 基于血缘分析的分类分级 在数据加工过程中,往往会造成敏感资产的特征发生变化,无法通过规则或者算法识别。但是相关数据安全规定明确指出,加工过程中的衍生敏感资产也需要识别并定级。 敏感资产分类分级结果 星环数据安全合规监测与防护平台 数据源数据库数据表字段敏感类型安全等级隐私类型 敏感资产 盘点 DB1TB1guideemail邮箱 G3 个人 第三方数据库 分类分级 DB2TB2userpid身份证G4 个人 动态、静态 血缘分析 关联规则 血缘分析引擎 字段级库表血缘 星环平台 email pid name ... 基于血缘的敏感传播链路发现 数据表敏感表 敏感表 数据表数据表 企业全局数据访问策略中心 •基于数据安全的整体设计框架,为全域、全生命周期的安全防护建立最基础最可靠的安全策略中心. •为星环及第三方数据平台、数据库、中间件等相关产品提供统一的数据安全策略,从而形成整体的数据防护和敏感监测等能力。 •策略支持多种维度,内置基于等级的默认防护策略,并可基于资产维度、用户维度实现细粒度行列访问权限。防护支持动态脱敏访问拦截、明文访问。 星环数据平台/数据库 星环数据中间件 第三方数据平台/数据库 KunDBScope SophonBase/P²C ApacheHadoop 元数据仓库 ArgoDB/Inceptor /... TDS (含Midgard) CDH FusionInsight Quark Quark Defensor安全策略中心 名称分类分级敏感识别方法 Protection 敏敏感对象分类分级角色/用户访问系统 数据防护操作 手机号G3 手机号识别方法 限制访问 db1.table.col1G1 dev CRM系统 mask IPG2IP地址识别方法 脱敏 分类分级安全治理 db1.table.col2G2 admin报表系统 passthrough 身份证G3 身份证识别方法 隐私查询 db1.table.col3G4 guestERP系统 deny ........................ API工具 Tableau 标签工具 SmartBI 第三方中间件 报表工具 分布式高性能数据脱敏与去标识化 基于高性能分布式计算框架,支撑企业海量数据跨域脱敏,支持脱敏节点横向扩展。同时预置70多种脱敏算法,包括但不限于,仿真脱敏,遮盖脱敏,随机替换,差分隐私等,满足企业敏感资产使用与流转过程中的安全防护需求。 高性能分布式脱敏框架 数据导入 前置处理 创建任务 执行任务 数据导出 70+算法 待脱敏与去标识化数据 脱敏与去标识化的数据 原始数据导入 脱敏数据导出 出域缓冲区 待出域数据待出域数据 ... 生产库 数据湖或数仓关系型库 ... 分布式脱敏执行引擎 任务执行器 任务执行器 任务执行器 重标识风险增大 算法类别 算法名称 算法简介 应用场景 ◆预置70多种脱敏算法,满足不同场景需求,下表为常见脱敏算法举例。 average平均值算法,所有数值替换成平均值对数据类数据有数据统计分析的需求统计技术脱敏max最大值算法,所有数值替换成最大值对数值类数据有数据统计分析的需求min最小值算法,所有数值替换成最小值对数值类数据有数据统计分析的需求 mask_lastname中文姓名随机替换姓氏脱敏后数据依旧保持元数据特征,常用在测试往生产取数mask_firstname中文姓名随机替换名脱敏后数据依旧保持元数据特征,常用在测试往生产取数replace_code身份证号随机替换行政区划代码,同时保证校验位校验常用在测试往生产取数脱敏后数据依旧保持元数据特征 仿真脱敏 replace_birthday身份证号随机替换出生日期,15位和18位长度都支持替换,脱敏后数据依旧保持元数据特征常用在测试往生产取数同时保证校验位校验replace_email随机替换电子邮箱@符号前面的字符脱敏后数据依旧保持元数据特征,常用在测试往生产取数 AES对字符串/二进制进行AES加密适用于对需要回源的字段进行加密的场景 对称加密脱敏 凯撒密码对字符串进行凯撒加密适用于对需要回源的字段进行加密的场景 ... ◆算法举例(仿真脱敏) 姓名手机号 身份证 姓名手机号 身份证 陈程13382763901 53010219200508011x 张旖13536718920 310000199003120921 仿真脱敏 陈程13390189288 530102192005080116 张旖13587820001 310000197101220221 汪笃18933378109 530102198711020021 汪笃18912879033 530102195704290117 黄论18903991822 310000199209210113 黄论18939029810 310000198812190023 ... ... ... ... ... ... 姓名、身份证信息、邮箱等敏感数据的脱敏不是以*替代字符,而是脱敏成一个假的但是保持统计特征值的信息。 个人信息去标识化 个人信息去标识化是一种隐私保护技术,旨在保护个人信息的隐私和安全。 数据管理员 个人信息识别与分类分级 去标识化 去标识化结果验证 123 设置数据安全规则、创建分类 分级发现包含个人信息的表。 配置去标识化任务,对包含个 人信息的表去标识化。 对去标识化结果进行验证与 打分。 4级聚合数据 3级重标识风险可接受数据 2级消除直接标识符的数据 1级能直接识别主体的数据 根据是否直接暴露具体身份将分类分级中识别到的个人信息分为直接标识和间接标识,用剔除、模糊、指代等手段完成去标识化工作,并对结果进行1-4级的综合智能评分,量化去标识化的效果。 姓名 性别 年龄 药物编码 性别 年龄 药物编码 王三 男 36 700025 男 36-40 700025 赵四 女 28 355421 女 26-30 355421 张三 男 52 355611 男 51-55 355611 事中可控 SQL动态脱敏网关 •明文计算,结果脱敏,保证动态脱敏的基础上不会打断数据分析业务。 •基于策略的全局敏感资产防护,当数据或人员的安全等级发生变化,可以通过策略调整灵活管控。 •基于网关的动态血缘分析,临时表与加工表能及时继承防护策略,随时调整。 •分布式计算框架,支持横向扩展,应对高并发场景。 方案架构基于语法改写的动态脱敏 Defensor 安全策略中心 分类分级 数据业务人员 联邦计算引擎Quark 星环大数据平台 开源CDH 关系型数据库 异构数据库 数据业务人员 selectcol1fromtable1;selectcol1,col2,col3fromtable1; 安全策 略匹配 数据对象 分级保护方法 不需要保护 db1.table1.col1G1直接访问 需要保护 db2.table2.col2G2脱敏 SQL转换 db2.table2.col3G4拒绝 selectcol1,mask(col2),nullfromtable1; SQL执行 API安全网关 企业数据中心普遍存在数据链路繁琐复杂的问题,这将导致敏感数据难以统一防护,需要在各个节点、各个应用系统实现重复的安全防护的功能。有了星环数据安全API网关,企业可以通过网关统一纳管数据出