安全智能分析技术白皮书 2023 SecXOps 智能基座,开启安全分析新时代 关于绿盟科技 绿盟科技集团股份有限公司(以下简称绿盟科技),成立于2000年4月,总部位于北京。公司于2014年1月29日在深圳证券交易所创业板上市,证券代码:300369。绿盟科技在国内设有50余个分支机构,为政府、金融、运营商、能源、交通、科教文卫等行业用户与各类型企业用户,提供全线网络安全产品、全方位安全解决方案和体系化安全运营服务。公司在美国硅谷、日本东京、英国伦敦、新加坡及巴西圣保罗设立海外子公司和办事处,深入开展全球业务,打造全球网络安全行业的中国品牌。 版权声明 为避免合作伙伴及客户数据泄露,所有数据在进行分析前都已经过匿名化处理,不会在中间环节出现泄露,任何与客户有关的具体信息,均不会出现在本报告中。 CONTENTS 执行摘要001 1安全分析的发展背景和趋势003 2安全智能分析的挑战006 2.1数据治理007 2.2模型开发008 2.3模型交付009 2.4模型运营010 2.5AI工程化010 3SecXOps技术体系012 3.1概念内涵013 3.2技术优势013 3.3核心能力014 4SecXOps关键技术018 4.1安全数据资产统一管理019 4.2安全分析模型自动化调优026 4.3安全分析模型核心服务部署033 4.4安全分析工作流定制038 4.5安全分析开发环境一键部署041 4.6模型资源动态调度管理047 5SecXOps典型应用场景051 5.1加密流量检测的数据闭环052 5.2Web安全分析模型的持续优化056 5.3工控协议识别算法自动化调参060 5.4Webshell安全检测的增量开发066 5.5安全告警日志的工作流服务068 6SecXOps技术发展趋势072 7总结075 参考文献077 执行摘要 执行摘要 随着网络空间的攻击面的延伸和拓展,网络空间攻防双方信息不对称的现象愈发明显。伴随着攻防对抗态势的升级,自动化技术、智能化技术与安全分析技术融合的安全智能分析技术已成为网络安全技术发展的必然趋势之一。 SecXOps即XOpsforSecurity,以XOps与安全场景的融合为基础,由安全数据资产高质可信、安全模型全生命周期管理、安全模型高精度定制、安全模型自动化运营、AI工程化持续保障五大核心技术能力组成,在保证安全性的同时,减少技术和流程的重复,实现网络安全分析自动化、智能化进阶,是未来应对网络空间高级、持续、复杂威胁与风险不可或缺的关键技术之一。 绿盟科技推出SecXOps安全智能分析技术白皮书《智能基座,开启安全分析新时代》,旨在对SecXOps概念内涵、技术优势、核心能力、关键技术和应用实践进行全面地总结与介绍,期望为读者带来全新的技术思考,助力网络安全智能分析实现自动化、智能化进阶。本技术白皮书的主要观点如下: 智能分析是网络安全分析的必然趋势: 随着网络空间攻防对抗态势不断升级演化,数字化时代的特征倒逼网络安全分析突 破依赖安全专家的传统“人工”阶段,安全智能分析已成为网络安全风险治理与防 控的必备条件之一。 网络安全实战场景是安全分析应用的“试金石”: 安全分析模型从实验室研究走进网络安全实战化的场景,走进常态化的日常安全监 测中,面临着诸多挑战,只有以实战检测的方式来验证安全分析模型的价值,才能 有效地促进安全分析能力的提升。 001 SecXOps安全智能分析技术白皮书 SecXOps成为提升安全分析自动化和智能化水平的关键: 管理和监控,为网络安全的数据分析人员、ML工程团队、应用开发团队以及安全运 SecXOps将XOps实践应用到网络安全分析中,以支撑安全数据治理,安全模型训练、 交付,完成网络安全分析技术与大数据和人工智能技术的深度协同融合,全面提升 营团队的协作搭建安全、兼容和经济高效的平台,从而实现基于AI安全模型的持续 安全分析的自动化和智能化水平。 促进SecXOps生态建设,共同推动网络安全分析智能化: SecXOps技术的研究和攻防场景应用实践仍然具备较大的上升空间,在理论方法、 标准制定和模型运营等方面需要进一步的研究与探索,需要技术生态的构建,营造 网络安全分析智能化大时代技术氛围。 002 发展背安0全和分1趋析势的 SecXOps安全智能分析技术白皮书 近年来,互联网、大数据和人工智能等技术都得到了飞速的发展,网络攻击的方法也越来越复杂,过去广泛、漫无目的的攻击威胁,在数年内迅速地转化为有目标、有组织、长期潜伏的多阶段组合式高级可持续威胁(AdvancedPersistentThreat,APT)攻击。APT攻击有着复杂度高、对抗性强、特征隐蔽等特点,通常由有国家背景的相关攻击组织发起,实施窃取国家机密、重要企业的有价值商业信息、破坏网络基础设施等活动,具有强烈的政治和经济目的,严重影响网络空间稳定运行,造成国民经济损失,威胁国家安全。随着APT攻击等高隐蔽未知威胁的出现和演进,传统安全分析技术难以满足APT攻击检测的要求,亟需融合多手段的检测技术来应对种类日益多样化的安全威胁攻击。在安全威胁具有更强的杀伤力与隐蔽性的形势下,结合大数据和人工智能技术的安全智能分析成为新一代安全能力的关键,是网络空间安全的重要发展方向之一。 卓越级 领先级 借助大数据和人工智能技术完成分析能力自适应的调整,智能地洞悉信息与网络安全的态势。 基础级 基于专家经验与知识构建的知识库和预置的自动化匹配机制、流程,实现典型安全分析。 基于机器学习和深度学习等技术,针对不同数据构建安全模型,从大规模数据中完成识别、检测和分类等任务。 图1网络安全分析发展阶段 由于APT攻击等网络威胁利用大数据分析、自动化工具等先进技术来提升恶意攻击的效率和隐蔽性,倒逼网络安全分析突破依赖安全专家的传统“人工”阶段,进入安全智能分析阶段。安全智能分析运用人工智能技术从安全大数据中进行威胁检测分析,直接或间接地提高安全分析效率,在实际攻防实战中充当智能化助手的角色,帮安全分析员更加快速地定位威胁攻击,提升安全分析的自动化、智能化水平。回顾网络安全分析发展历程,可以将安全分析技术发展大致划分为三个阶段,包括基础级、领先级、卓越级,如图1所示,以下分别进行简要介绍。 004 安全分析的发展背景和趋势 ●基础级 基础级的安全分析技术基于专家经验与知识构建的知识库和预置的自动化匹配机制与流程,实现典型安全分析,利用安全专家的知识和解决问题的方法来分析安全数据。该阶段面向不同的应用场景,需要专家编写指定的检测规则,以列表结构、树结构、图结构简单组织的规则逻辑结构,分析场景下的攻击行为。然而,随着攻防技术的快速迭代和升级,攻防场景与流程的细化,此类分析方法逻辑的完备性在大数据场景下迎来关键挑战,针对攻击的误报率、漏报率和整体准确性性能衰减很快,难以有效自适应演化,过度依赖专家资源,可维护性低,能够支撑分析的场景愈发受限。 ●领先级 领先级的安全分析技术面向不同的网络安全数据,包括安全环境数据(资产、资产脆弱性、文件信息、用户信息),行为数据(网络侧检测告警、终端侧检测告警、文件分析日志、应用日志、蜜罐日志、沙箱日志),情报数据(各类外部威胁情报)以及安全知识数据(ATT&CK)等,基于机器学习和深度学习等技术,针对不同数据构建安全模型,从大规模数据中完成识别、检测和分类等任务。虽然在诸多网络安全分析的场景下基于机器学习和深度学习等安全模型取得了重要的突破,但是随着数据的变动,传统的构建安全模型分析的方法无法有效地完成模型运营,导致在面对APT等高级复杂攻击技战术分析时,安全模型分析的结果仍需要深度的专家参与的研判与关联分析来判定安全分析的业务价值,限制了安全分析自动化、智能化水平的提升。 ●卓越级 卓越级安全分析借助大数据和人工智能技术完成分析能力自适应的调整,能够更加智能地洞悉信息与网络安全的态势,更加主动、弹性地去分析新型复杂的威胁和未知多变的风险。自适应安全分析采用安全分析工程化的最佳实践提升安全分析的自动化和智能化水平,在确保可靠性、可用性和可重复性的前提下,减少技术和流程的重复,实现安全分析能力的持续交付,发挥安全分析技术在安全领域的巨大潜在价值,推进网络安全智能不断走向成熟,是分析网络空间高级、持续、复杂威胁与风险不可或缺的技术基础。 005 0安分全析的智2挑能战 随着各个国家的重视和布局,大数据技术和人工智能技术发展迅速,相关自动化与智能化的识别和处理能力、数据分析能力逐渐与网络安全技术进行了深度协同,对网络安全的技术、方法、应用产生了重要影响,促进了网络安全技术的变革性的进步[1]。可以预见的是安全数据采集和安全智能数据分析技术的成熟将会大幅提升网络安全威胁检测、网络安全风险评估等关键安全防御环节的效率,大幅减少对网络安全专家的依赖,有效地降低企业、组织乃至国家级关键信息基础设施、数据资产的整体安全风险[2]。因此,安全智能分析能力的提升已经成为安全能力落地、发挥网络安全防御有效性和对抗APT等高级威胁最直接、最关键的环节之一。面对日趋白热化、持续化的网络攻防对抗环境,安全智能分析也在多个方面面临着诸多挑战。 2.1数据治理 企业数字化转型浪潮的来临,多源异构数据的爆发式增长,使数据治理得到了企业的普遍关注和重视。大规模数据蕴藏的巨大潜在价值吸引着攻击者对集中存储的数据进行窃取、对海量数据的管理是企业亟待解决的一项艰巨任务。 数据治理旨在解决数据在生产、管理和使用中面临的各种问题。从数据源汇入开始,在数据清洗、数据存储、数据分析、数据服务等数据生命周期涉及的所有环节中,数据治理对企业内部的数据集进行规范和定义,并结合企业自身数据现状,为各个环节提供持续的治理服务[3]。随着企业数字化程度的提升,数据治理的需求和复杂度也会增加。由于安全领域自身的特点,数据治理面临着以下挑战: ●数据采集:网络安全领域数据壁垒问题严重,安全数据作为敏感数据,往往分布在各个数据持有者手中,数据采集缺乏可访问性和采集渠道,导致采集的安全数据集不完整、不可靠,不足以代表安全问题的真实数据分布,数据多样性的匮乏和完整性的不足会影响到后续的数据挖掘、数据分析等数据操作的质量。 ●数据标签:数据标签化旨在为安全数据贴上精准的标签,安全分析任务所需的真实标签不准确、不稳定或错误,将影响后续安全分析模型的整体性能,反之数据标签越丰富,越准确,后续的安全分析依据就越多,决策也越准确。安全数据标签化深度依赖企业在研究中的积累和专家知识,海量的攻击样本、复杂的攻击类型、多源异构的数据都为数据标签化带来难以回避的挑战。 ●数据规模:安全分析需要大规模、多维度的安全数据作为基础,但处理海量数据也给安全分析带来多方面挑战,如依赖爆炸、海量告警场景下的告警疲劳等问题,以及海 量数据在数据采集、传输和存储阶段为系统带来的压力,都会降低整个安全数据治理流程的效率。 ●动态治理:安全数据包含动态产生的终端侧、网络侧、沙箱侧、蜜罐侧的告警日志,以及威胁情报、漏洞、知识库、IT资产等数据资产,对这些安全数据的动态治理是实现可靠数据分析的关键。为了在复杂多变的网络空间环境中制定出动态自适应的分析策略,安全数据治理对动态治理提出更高的要求。 因此,安全数据的治理需要对安全数据进行持续采集、标注、存储以及动态治理,基于大数据的治理技术确保安全数据的质量,在提高数据质量的同时减少数据分析的周期。 2.2模型开发 近年来,随着硬件计算能力的日益强大与数据量的井喷式增长,深度学习的应用也是与日俱增。尽管经过了数十年的发展,深度学习的实用性和普适性已经有了很大的提升,例如,使用计算机视觉领域的卷积神经网络也可以对文本进行处理,并且得到比较好的效果。然而在很多场景下,不同领域的模型针对某一特定场景的任务在准确率、查准率、查全率和时间复杂度等很多指标上都有明显的鸿沟,无法将其他领域的模型直接应用到一个新的领域。