IDC透视 CISO人工智能指南 弗兰克·迪克森 克里斯托弗·基塞 米歇尔·亚伯拉罕 PhilipBues 詹妮弗·格伦 执行快照 图1 尔·迈克·裘德 RyanO'Leary 格蕾丝特立尼达 执行快照:CISO人工智能指南 来源:IDC,2023年 情况概述 微软推出利用生成式人工智能(AI)自然语言模型ChatGPT技术的安全副驾(SecurityCopilot), 这一举措在AI及其在安全领域的应用方面引发了广泛讨论。谷歌云安全AI工作台(GoogleCloudSecurityAIWorkbench)、AWSTitan/Bedrock以及IBMWatsonX进一步加剧了这一讨论。我们一致认 为,更高的分析能力和自动化将是安全的未来,但这一未来不仅仅局限于生成式AI。 人工智能在安全领域的应用并非新鲜事物。自网络安全诞生之初,分析技术就一直是其基 础。机器 学习(ML)和人工智能在早期的一些商业应用中也得到了一些体现。想想看,像麦卡费DeepDefender、火眼恶意软件防护系统以及思科高级恶意软件防护等产品早在十多年前就已经推出! 随着供应商寻求通过差异化其产品和服务来吸引精明、知识渊博且洞察力强的网络安全买家,营销人 员通常会推广一些buzzwords(热门术语)。然而,这些术语往往没有明确的定义,行业内从业者之 间也极少有共同的理解。结果导致了混淆。 IDC不希望增加混淆。因此,我们在本文中提供了我们对人工智能和机器学习在网络安全领域正式定义的阐述,包括示例,并构建了一个框架来界定该主题并引导思考,以帮助提供清晰性。 定义人工智能 人工智能由一系列基于机器的技术组成,这些技术能够感知和综合数据以推断信息和洞察力,从而创建能够学习、推理、适应和自我纠正的系统。示例任务包括安全情报、语音识别、计算机视觉、自然语言之间的翻译以及其他输入映射。诸如机器学习等技术使计算机系统能够在无需人类编程的情况下进行学习(见图2),以及深度学习使得多层神经网络的计算变得可行。 图2 定义人工智能 来源:IDC,2022 人工智能在安全中的应用 当术语应用于网络安全的狭窄应用场景时,我们将人工智能定义为基于结构化和非结构化数据(包括日志、设备遥测、网络包头和其他可用信息)提供咨询性、增强服务和半自主网络安全防御功能。简单来说,人工智能是将统计学应用于解决网络安全问题。目标是创建能够捕获并复制顶级安全专家战术、技术和程序的分析平台;使传统的无结构威胁检测和修复过程更加普及;或者完成一系列近实时的自动化检测与响应技术,理论上这些技术可以被复制,但到安全专家完成任务时,已经为时过晚。开发方法通常从平凡且基础的任务开始,逐渐过渡到越来越复杂的应用场景。通过大量结构化和非结构化数据、内容分析、信息发现与分析以及众多其他基础设施技术,具备人工智能的安全平台利用深 度上下文数据处理来回答问题、提供建议和指导、进行假设,并基于现有证据形成可能的答案。模型 通过摄入大量内容进行训练,并自动适应并从错误中学习。 并且未能增强或提高组织最宝贵的网络安全资产——稀缺的网络安全专业人员的能力或效率。这些技 术组件范围从非结构化信息处理和知识提取到机器学习/深度学习,包括监督学习和无监督学习,用于 假设生成和问题解答。具体而言,这些工具用于构建更智能的应用程序,这些应用程序有潜力随着时间的推移进行学习和改进。 请注意,机器学习在网络安全应用中解决的具体用例往往与其他更广泛的人工智能领域中的技术有所不同(参见图2)。IDC将网络安全应用中的机器学习定义为在大量结构化数据集中识别模式。基于我们对人工智能的简单描述,即将其视为应用于统计学以解决网络安全问题的方法,机器学习则揭示了这些模式。例如,机器学习被用于基于大量恶意和良性可执行文件创建算法,从而产生关于文件潜在恶意性的可靠且可重复的判断。一些形式的机器学习通常应用于可重复且已知的用例/问题,而更复杂的机器学习形式,如神经网络和其他人工智能技术,则应用于更为复杂和非结构化的问题。 both人工智能和机器学习在网络安全应用场景中得到了应用,旨在解决同一个基本问题:网络安全人 员短缺。通过针对这一问题、提升SOC分析师技能或通过提供更高精度和速度的检测能力来增强检测 能力,例如识别恶意软件、发现钓鱼攻击、分析目标网页以识别凭据提示等,从而在多种方式上解决问题。理论上,前者旨在使安全专家更有效,而后者则旨在提高效率。图3提供了示例说明。实际上, 随着机器学习规模的扩大,所解决的问题已经远远超过了单个人千辈子代都无法涵盖,但基本原则仍然适用。 一生中能够模式匹配的范围,甚至数 图3 人工智能在网络安全中✁实际应用示例 来源:IDC,2023年 机器学习使安全专业人士更加高效,因为它能够分析太字节规模✁结构化数据并识别出表明恶意行为✁模式。Symantec院士EricChien将网络安全机器学习描述为: 将大量关于恶意文件和合法文件✁数据输入算法。该算法输出一个“分类器”,可以用于分析从未见过✁新文件,并确定该文件、URL或端点上✁具体情况是好是坏。此前,编写分类器始终是由人类分析师完成✁工作,但机器学习使得这一过程可以在无需人工编写程序✁情况下自动完成。机器成为了分析师。 本质上,机器学习使网络安全专业人士能够在数据✁“haystack”中找到恶意✁“needle”,而人类在这种情况下通常很难及时发现,除非偶然遇到。 与其他人工智能✁应用相比,其目✁是提高安全专业人员✁工作效率。以大型企业和托管安全服务提供商为例,通常一级SOC分析师与二级SOC分析师✁比例为3:1,这一比例由IDC在其与客户交流时作出估算。目标是在未来几年内将该比例调整至5:1。要实现这一目标,唯一✁途径是提高一级SOC分析师✁工作效率,并增强经验更丰富✁初级分析师✁能力,使他们能够达到二级分析师✁水平。 最近各种安全供应商推出✁聊天机器人热潮就是AI如何帮助提升SOC分析师能力✁一个例子—— “请解释这个警报”,“请解释这个owerShell✁情况”,等等。 PowerShell脚本”,“帮助我查找任何从MicrosoftWord文档启动P 为了更复杂✁例子,事件序列化是大多数检测和响应解决方案✁核心特性。传统上,安全信息和事件管理(SIEM)系统非常擅长检测基于规则✁违规行为。然而,如果不能理解攻击✁类型或真实性,异常检测可能会变得复杂。类似SIEM或端点检测与响应(EDR)✁检测和响应解决方案可以处理一系列显著事件(警报),并结合风险调整因子来减少调查工作量(将多个警报归类为单一“事件”),从而让安全运营中心(SOC)分析师能够逐步全面了解发生✁攻击类型。此外,安全平台通过自动化事件序列化来将多个警报归类为单一“事件”,利用AI及互补✁专家规则集,使安全分析师能够大规模处理警报 。我们不能不提到✁是,事件序列化✁标准是MITREATT&CK框架,这是一个用于分类和描述网络攻击和入侵✁指南。该框架由14个战术类别组成,每个类别包含“对手✁技术目标”。例如,权限提升和命令与控制。 用户行为分析——介于机器学习和人工智能之间 一级分析师角色中✁人工智能职责与我们归类为人工智能领域✁二级和三级分析师角色之间存在交集 (参见图3)。这个交集✁一个恰当描述是用户行为分析(UBA)。 UBA是跨多个领域应用✁一套人工智能技术集合,包括终端检测与响应、威胁分析以及SIEM(安全信息和事件管理)。用户和实体行为分析(UEBA)是一种分析方法,用于在网络中为每个用户和实体建立个体关系。通过应用UEBA,可以建立一个统计基线,既是异常行为✁基础,也可以作为用户/实体✁标准“金标准”形象,描绘其正常行为模式。 网络中个体实体✁统计特征在多个方面具有重要意义。首先,零日威胁是一种恶意软件,它会渗透到网络中并在被发现之前一直保持未检测状态,直到其触发。如果一种新✁恶意软件设计能够绕过网络安全边界,UEBA(用户和实体行为分析)可能会在它试图与合规连接(C2C)服务器进行通信或表现出其他异常时发现其存在✁证据。另一种难以防御✁威胁是内部威胁。内部威胁通常可以分为三种情况:疏忽大意✁内部人员造成✁暴露、故意进行数据窃取✁恶意内部人员以及通过提升权限伪装成内部人员✁恶意行为者。在这三种情况中,共同点在于最终用户或设备现在正在通过安全隧道进行通 信。基本上,一个合法使用网络协议并启动入侵检测系统(IDS)、入侵预防系统(IPS)、下一代防 火墙和SIEM(安全信息和事件管理)工具✁最终用户,其进行✁恶意活动很难与网络上✁正常活动区 分开来。最后一个应用场景涉及物联网(IoT)。随着数十亿设备与更大规模✁网络交互,设备间(M2M)✁注册过程无需管理员分配角色且无需代理程序即可完成。个体和群体分析可能是唯一能够发现异常✁方法。 然而,承认UEBA在未来5到10年不会保持现状,安全团队应该注意一些问题。那些在UEBA方面表现强劲✁公司会暗示,他们✁平台会随着输入数据量✁增加而变得更加强大。显然,在部署初期,UEBA平台仍然需要其他工具来辅助自我调优。其次,如果没有适当✁控制措施,重复✁不良行为可能会开始被视为正常或非异常行为。最后,由于沙箱和欺骗技术用于模拟真实网络环境,未来可能存在一种可能性,即高级黑客通过添加大量无意义✁数据来削弱平台✁功能,使得分析引擎在处理数据流时无法识别出真正✁敌手意图(大致类似于缓冲错误攻击)。 请注意,IDC确实区分了用户行为分析(UserBehavioralAnalytics,UBA)和用户和实体行为分析(UserandEntityBehavioralAnalytics,UEBA)。UEBA属于一个更大✁类别,它从“黑盒”角度审视设备 、实例和身份,建立“正常”状态并寻找与正常状态显著偏离✁情况。许多人将UBA描述为异常检测,这是合适✁。因此,UBA往往更侧重于机器学习(ML),而非人工智能(AI)。UEBA则移除了“黑盒”,并将身份上下文应用于问题解决;UEBA假设即使活动未表现出异常,也可能不符合允许条件。例如,一家身份供应商在其前两个beta客户互动中展示了其新UBA产品✁出色演示效果。但在第三次产品演示中,没有任何事情发生。平台现在已经确定,下载个人可识别信息并将其发送到Gmail账户✁行为对于该用例来说不再是异常✁。通过引入身份上下文和适当✁策略创建,可以防止此类问题。因此,UEBA往往更侧重于AI,而较少依赖ML。 这不是关于AI;这是关于数据 人工智能✁hype和讨论集中在AI上。为什么不呢?AI✁可能性激发了想象力,照亮了可能。然而 ,在安全领域实现成果✁关键并不在于AI,而在于数据。许多孩子被蒸汽机✁力量和体积所吸引。 尽管如此,蒸汽机✁潜力却依赖于铺设轨道和构建基础设施这一枯燥且繁琐✁过程。同样地,数据是 安全AI✁基础设施。三个特性决定了成功: .数据框架结构.数据管理.数 据策展 数据结构 例如,我们寻求利用人工智能来释放关重要。XDR最基础✁定义是: 扩展检测与响应(XDR)✁潜力和承诺时,构建框架和 结构至 .从多种安全工具收集遥测数据。对收集并标准化✁数据应ediate那种恶意行为。 用分析以确定恶意行为。响应并Rem 当我们寻求将分析应用于收集并标准化✁数据以检测恶意行为时,AI需要具备大规模处理数据✁能力 。针对特定应用场景优化✁遥测数据,例如防火墙周边防御网络边界✁情况,如果无法与其他数据集 (如身份信息)关联,或者没有被构架以实现最终目标,则几乎毫无用处。 讨论了事件序列作为大多数检测与响应解决方案✁核心属性✁价值,其中大部分价值通过应用MITREATT&CK框架得以释放。该框架不仅通过映射到网络杀链为威胁检测任务提供了结构,还创造了一种方式,使得来自不同供应商✁不同工具能够结构化数据并为其分析做准备。 数据管理 数据具有重量。安全数据✁重量尤为显著。例如,一个典型✁终端保护平台代理每天会产生150-200 MB✁数