您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[数世咨询]:基于AI+场景的数据安全管理平台 - 发现报告
当前位置:首页/行业研究/报告详情/

基于AI+场景的数据安全管理平台

信息技术2023-08-15-数世咨询静***
基于AI+场景的数据安全管理平台

基于AI+场景的数据安全管理平台 演讲人:康缪建 职位:保旺达CTO 1AI+场景驱动数据安全能力提升 目录 CONTENTS 2保旺达AI+场景数据安全管理平台 3基于AI的数据安全场景应用 4成功案例 Part01 AI+场景驱动数据安全能力提升 60 50 40 30 20 10 0 2017年-2022年我国数字经济规模及占GDP比重 41.50% 38.60% 32.90% 50.2 39.2 27.2 45% 40% 35% 30% 25% 20% 15% 10% 2017年2020年2022年 中国数字经济规模(万亿元)占GDP比重(%) 10 8 6 4 2 0 2017年-2022年我国数据产量及全球占比情况 10.50% 8.1 9.6% 8.8% 5.1 2.3 11% 11% 10% 10% 9% 9% 8% 8% 2017年2020年2022年 我国数据产量(ZB)我国数据产量全球占比 数据来源:国家互联网信息办公室《数字中国发展报告(2022年)》 需:数字经济成为稳增长促转型的重要引擎 供:数据资源供给能力不断提升 保障数据要素流通,数据安全倍受重视 《数字中国建设整体布局规划》 明确了建设数字中国对于推进中国式现代化的核心地位,同时将数字安全屏障与数字技术创新体系并列为“两大能力”,凸显了数据安全在数字中国中的核心和底座作用。 《关于构建数据基础制度更好发挥数据要素作用的意见》 提�到2025年,数据安全产业基础能力和综合实力明显增强,数据安全产业规模超过1500亿元,加速数据要素市场培育和价值释放。 数据资源作为重要生产要素,数字经济发展核心引擎,保障数据安全至关重要。 应对各类数据风险,数据安全面临挑战 伴随数据在更多场景中被收集和利用,数据安全和隐私保护态势愈发严峻。 数据使用风险 数据泄漏风险 数据流转风险 数据处理流程防护能力不完善,存在数据不当使用或者非必要使用风险。 网络架构复杂导致的数据泄露风险, 人为操作失误导致的数据泄露风险。 API广泛应用,数据流动性增强,大大增加泄露及滥用风险。 数据资产管理风险 数据权限管理风险 数据新技术应用风险 更大量的非结构化数据内容难以识别, 动态业务场景下管理有效性难以保持。 多主体参与数据应用导致边界不清,责任不明。 AI技术推广过程中�现的算法滥用及数据伪造。 追求全面极致创新,人工智能快速突破 深度学习技术进一步发展 未来将继续深入研究和发展深度学习技术,包括更加复杂的神经网络结构、更加高效的 1训练算法和更加智能的学习策略等。 算法数据 AI 人工智能 强化学习技术应用拓展 2 未来将继续应用强化学习技术解决更加复杂的问题,包括自动驾驶、机器人控制、游戏策略等。 多模态AI技术发展 3未来将继续发展多模态AI技术,应用于语音识别、图像识别、自然语言 处理等领域。 算力4 AI芯片技术创新 未来将继续创新AI芯片技术,包括更加高效的计算架构、更加智能的算法设计和更加节能的功耗控制等。 与其他技术融合 5与物联网、大数据、云计算等技术的融合将成为未来发展的重要趋势之一,实现更加智 能化的数据分析和决策。 AI驱动场景创新,提升数据安全能力 《关于加快场景创新以人工智能高水平应用促进经济高质量发 自然语言处理技术 展的指导意见》 图像&语音识别技术 场景创新是以新技术的创造性应用为导向,以供需联动为路径,实现新技术迭代升级和产业快速增长的过程。推动人工智能场景创新对于促进人工智能更高水平应用,更好支撑高质量发展具有重要意义。 数据量大复杂度高 数据攻击手段多样化 数据挖掘技术 AI技术可以通过自主学习和智能决策,对大规模、高复杂度的数据进行分析和处理。 AI技术可以通过数据加密、数据掩码等方式,对敏感信息进行保护。 数据隐私保护需求增加 数据安全保护需求多元化 机器学习技术 AI技术可以通过智能识别和自主防御,对各种攻击手段进行及时识别和防范。 AI技术可以通过智能分析和智能决策,对不同场景下的数据安全保护需求进行定制化和个性化。 数据分类和分级 数据质量控制 数据安全保护 异常行为自动化检测 风险评估自动化 深度学习技术 风险决策与处置 AI在数据安全保护中的应用 AI+场景数据安全应用方向 Part02 保旺达AI+场景数据安全管理平台 风险驱动的数据安全动态管理逻辑 主动发现 信息同步 人工录入 处置安全事件 流量采集日志采集 资产信息校验、补全、关联 识别异常行为 生成安全事件 监测数据行为 资产目录 评估&决策风险 实现防护效果 1数据资产管理2数据风险评估 3数据安全处置 敏感分类分级 资产纳管 推荐安全策略 执行剧本 安全标准管理 管理剧本 数据安全管理平台业务架构 安全管理 决策 数据安全策略服务 数据安全资产管理 数据安全事件管理 数据安全处置管理 提供数据支撑 安全监测 数据发现和识别 数据安全事件分析 数据安全风险评估 扫描和抽取 主动识别并纳管数据资产,监视数据访问,分析数据安全事件,持续评估安全风险,为数 调度据安全管理提供数据支撑。 安全能力 安全能力池 依据数据资产管理、数据安全事件管理和数据安全处置管理的结果,决策生效数据安全策略。 执行调度数据安全防护能力生成, 执行并落实数据安全策略。 能力对接具体数据资产,执行数据资产安全防护。 关键能力—数据发现和识别 流量探针 扫描探针 数据资产管理 策略库特征库模型库 主要功能 通过扫描探针主动发现或者通过流量探针协议分析,根据预置的数据特征,对目标资产及数据打上标签,而后根据分类分级策略对数据进行分类和定级。 关键短板 •数据质量问题 •人类主观因素问题 •解释性问题 •多样性问题 •隐私保护问题 AI实践 •结合图片内容识别+自然语义识别技术在数据内容识别 过程中多样性提升的实践, •结合自然语义识别+机器学习技术在数据分类分级过程中多样性提升的实践。 关键能力—数据安全事件分析 策略库特征库模型库 主要功能 分析中心 结合流量采集及日志采集所获取的数据进行关联分析,发现不符合预定义规则的数据安全事件。 关键短板 流量采集 日志采集 •数据质量问题 •准确性问题 •多样性问题 •解释性问题 •隐私保护问题 AI实践 机器学习多种模型组合在特定场景下识别异常行为准确性提升的实践。 关键能力—数据安全风险评估 主要功能 响应中心 针对数据资产,结合安全事件与数据分类分级,评估当 前风险,并协助用户完成决策响应过程。 策略库模型库 关键短板 风险中心 •数据质量问题 •多样性问题 •鲁棒性问题 •新技术解释性问题 数据资产管理 安全事件识别 •应用问题 AI实践 集成学习堆叠模型在风险评估过程中鲁棒性提升的实践。 Part03 基于AI的数据安全场景应用 AI+场景实践—数据识别、自动分类 通过自然语义与机器学习技术在数据内容识别过程中的应用,提升敏感数据识别的效率、提高敏感识别的准确率、扩大敏感数据识别的覆盖面。 基于向量模型和敏感数据匹配技术,针对流转的采样数据进行敏感数据识别,完善敏感数据标准化,加快识别速度,保证识别效率。 无序训练 样本 数据规则集合 有序 样本 分类 规则库 类别模型 敏感数据识别 流量数据 爬虫数据 数据规则 集合 目标多维 向量模型 分类多维向 量模型 敏感数据自动分类 聚类&分 类分析 机器监督学习 语义处理 &提取 语义特征分析 目标分类归属匹配结果 账号盗用场景 多源历史 样本数据 LSTM 行为 基线 多源实时偏离点 分析数据 采用LSTM算法构建日常行为基线,使用RF算法,比对历史行为 基线,找�偏离正常行为操作点。 异常行为挖掘 多源历史 样本数据 Prefix Span 行为 序列 多源实时 分析数据 序列 识别 风险点 采用PrefixSpan算法找�事件序列建立审计模型,当被监控业务 并未按照规定的序列完成,判定为潜在的风险操作。 潜伏攻击识别 多源历史 样本数据 轴聚 类 访问 时序 多源实时 分析数据 攻击点 采用长时间轴聚类分析建立基本维度,通过FP-Growth关联识别 频繁项集中最为平均的波形,定义为疑似攻击行为。 AI+场景实践—数据访问异常事件识别 RF 权 多源历史 Kmean 行为 访 样本数据 s 分组 问监控 多源实时 Peer 分析数据 Group 异常点 特 FP- Growth 通过Kmeans聚类算法对用户划分对等组,使用PeerGroupAnalysis实时个群对比分析,找�偏离正常群簇的异常点。 AI+场景实践—数据访问风险评估 采用集成学习堆叠模型,构建多层系统,采用交叉验证、基础学习分类器的输�通过堆栈泛化输入到元分类器,通过LR进行最终决策。 训练数据 多源历史样本数据 特征预处理 第一层基础模型 第一层预测 RF NN SVM 第二层集成模型 元分类器 最终决策 LR 正常行为 训练数据 多源历史样本数据 基础学习分类器 集成学习分类器 风险行为 验证数据 异常风险评估 Part04 成功案例 应用案例 某省级电信运营商数据安全管理平台共纳管了83个业务系统,387个数据库,17万多张表,其中敏感表2万多张,日监控主要数据流量90多G(刨去原始日志传输流量),实现从资产发现、台账管理、异常告警、通知整改、处理反馈等数据安全管理的全业务流程的闭环管理。 83+ 1000+ 98326 业务系统 子系统接口 378+ 170000+ 20000+ 数据库表敏感表 90+G 5000/S 100+ 日监控数据流量 数据处理 日发现可疑风险 实施效果—数据报告 多维度展现数据梳理结果,数据的“动”“静”特性一目了然。 数据总览 •梳理结果涉及的业务和部门数量 •已梳理的数据源数量和总数据量 •涉敏表和总数据表数量比例 •涉敏字段和总字段数量比例 数据存储情况 •各业务存储的敏感数据数量分布 •不同存储时限的敏感数据数量分布 数据共享情况 •各业务共享数据的类型 •各级敏感数据共享的数量 敏感数据内容 •敏感数据涉及的数据标签分布 •各业务涉及的敏感数据类型 数据流转情况 •数据在各应用系统间的流转拓扑 敏感数据业务分布 •各级敏感数据在不同应用系统中的数量分布 •各业务部门中不同应用内的敏感数据情况 实施效果—风险评估 综合评分:根据多个维度的评估结果,按特定算法计算接口的安全分值,方便快速了解目标的安全性。 多维度细节视图:针对评估的每个维度,系统都会提供对应图表,直观展现具体风险问题。 安全建议:提供安全改进建议,每条建议都是安全专家的经验总结,弥补企业员工安全经验不足的缺陷。