您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[云安全联盟]:高性能计算(HPC)桌面练习指南 - 发现报告
当前位置:首页/其他报告/报告详情/

高性能计算(HPC)桌面练习指南

2023-10-20-云安全联盟罗***
高性能计算(HPC)桌面练习指南

©2023云安全联盟大中华区版权所有1 物联网工作组官方地址是: https://cloudsecurityalliance.org/research/working-groups/internet-of-things/ @2023云安全联盟大中华区-保留所有权利。你可以在你的电脑上下载、储存、展示、查看及打印,或者访问云安全联盟大中华区官网(https://www.c-csa.cn)。须遵守以下:(a)本文只可作个人、信息获取、非商业用途;(b)本文内容不得篡改;(c)本文不得转发;(d)该商标、版权或其他声明不得删除。在遵循中华人民共和国著作权法相关条款情况下合理 使用本文内容,使用时请注明引用于云安全联盟大中华区。 ©2023云安全联盟大中华区版权所有2 ©2023云安全联盟大中华区版权所有3 致谢 报告中文版支持单位 浪潮云是中国最早提供云服务的厂商之一(2010),是首批国家机关云服务提供商。作为中国行业云的引领者,浪潮云致力于成为高品质云服务提供商,具备“专业、生态、可信赖”三大核心优势。为客户提供云网边端融合、云数智融合、建管运融合的全栈云服务,构建零信任的云数安全体系,打造新一代混合云。携手合作伙伴,共建云舟联盟生态,支撑政府、企业数字化转型,助力数字中国建设。 浪潮云是CSA全球会员单位,支持该报告内容的翻译,但不影响CSA研究内容的开发权和编辑权。 英文版本编写专家 主要作者: JimBasneyChristopherFrenzMichaelRozaBrianRussell 贡献者: PedroCabezas KennyChu JosephLouis-Jean JamesMurphy KristinMyers GarySchaefer RishiTripathi 审校者: AshishVashishtha CSA员工: HillaryBaronClaireLehnert 在此感谢以上专家。如译文有不妥当之处,敬请读者联系CSAGCR秘书处 给予雅正!联系邮箱research@c-csa.cn;国际云安全联盟CSA公众号。 序言 随着工业4.0和人工智能等技术的发展,高性能计算(HPC)系统在制造业和人工智能中也得到了创新性的发展,如在制造业中,利用HPC系统进行高精度的数值模拟来优化设计方案,减少实验成本;在人工智能中,利用HPC进行深度学习、大规模数据分析和机器学习等任务,以提高人工智能的效果和性能。HPC在快速发展和应用的同时,其安全风险和漏洞也逐渐得到关注,特别是HPC计算集群,成为了加密挖矿掘恶意软件的黑客组织的理想目标。 随着越来越多的HPC系统应用面向终端用户开放,提供互联网接入服务,针对HPC系统的网络攻击也逐渐增多。然后针对HPC系统安全的防护却有待进一步加强,目前大部分HPC系统在IT部门之外处理,通常由专门从事HPC系统的个人管理,可能缺乏正式的网络安全培训和网络攻防实战经验,导致HPC系统一旦被攻击,其发现、响应、处置和溯源等安全流程将变得更加模糊与困难。 本白皮书以专业的视角,从HPC系统的网络安全桌面推演出发,详细阐述了HPC系统的架构、HPC系统安全桌面推演中的各方角色、场景构建和注意事项等,给读者提供了一个详细可落地的高性能计算HPC系统网络安全桌面推演方案,以帮助HPC系统安全管理人员快速获取网络安全及攻防相关经验,提升HPC安全管理人员的网络安全响应和处置水平。 李雨航YaleLiCSA大中华区主席兼研究院院长 目录 致谢4 序言6 1.简介8 利益相关者9 2.HPC架构10 访问区11 管理区11 高性能计算区11 数据存储区11 3.概述12 演习规划小组12 4.桌面演习场景的开始14 参考文献19 1.简介 虽然新闻中广泛报道了突出的勒索软件攻击和影响组织的大规模数据泄露事件,但你并不经常读到这些攻击中的一个对高性能计算(HPC)系统的影响。因此,HPC系统的风险和漏洞是一个在安全对话中经常被低估的领域。虽然在直接与HPC环境打交道的安全社区之外,并不经常讨论HPC计算机系统作为网络攻击目标的潜力,但在攻击者圈子里并没有被忽略。特别是,HPC计算集群被认为是寻求部署加密挖矿掘恶意软件的黑客组织的理想目标。 HPC系统的安全性通常代表了关于组织内如何普遍管理HPC系统的有趣挑战。在许多计算中心,HPC系统是在组织的IT部门之外处理的,通常由专门从事HPC系统的个人管理,可能缺乏正式的网络安全培训。同样,大多数组织内的网络安全团队可以带来专门的网络安全知识,但可能缺乏HPC环境的正式培训,以及缺乏对HPC架构与更传统的独立Linux/Unix服务器的设置有何不同的了解。当你把那些经常编写应用程序在HPC系统上运行的研究人员加入进来,他们可能缺乏HPC系统管理或应用程序安全方面的正式培训,围绕如何开始保护这些HPC系统的讨论迅速变得非常模糊。 然而,这是一个重要的讨论,特别是当越来越多的HPC应用被发现有一个基于网络的前端,允许用户与运行在后端的HPC分析应用进行互动。随着各行业对大数据分析、机器学习、人工智能(AI)和其他此类应用的进一步使用,越来越多的HPC应用正在获得一个面向公众的前端。在这样做的时候,它使HPC应用失去了传统上保持其安全的仅有内部可访问性的保护。针对HPC应用的攻击可能会增加,因此企业必须在针对HPC系统的攻击变得更加普遍之前,就保护HPC系统的安全进行探讨。 本指南列出了举办以HPC为重点的网络攻击桌面演习(TTX)所需的框架,以便组织能够为HPC安全进行规划。本指南通过一个TTX的例子,帮助利益相关者在事件发生时讨论HPC的安全问题,为改善HPC系统的安全而采取的行动建立共识,并围绕HPC系统制定事件响应(IR)流程。 利益相关者 为了在HPC安全方面达成共识并建立共同的目标,来自以下组织领域的代表应参加TTX。 行政领导 HPC系统管理 网络安全/信息安全 HPC应用开发者 利用HPC环境的研究人员信息技术 事故应对人员/取证 法律 媒体关系 在利益相关者参与TTX和情景展开的过程中,必须牢记TTX不是一个挑战,目的是以确定一个组织内的安全状况有多好,因此、利益相关者不应该因为某些控制措施的存在而争论该场景的可行性。桌面演习假设控制失败,以引导组织全面了解其事件响应(IR)流程,并作为一种识别额外补偿控制的方式,在控制失败的情况下应该有所帮助。 2.HPC架构 HPC系统是复杂的、不断发展的,因此一个通用的词典可以帮助描述和识别HPC系统的架构、关键元素、安全威胁和潜在风险。上面的架构概述是基于NISTSP800-223高性能计算标准草案。 一个有代表性的HPC架构通常由以下网段组成: 外部世界:外部世界是指互联网或其他完全处于HPC环境之外的组织网络。在本桌面演练指南中,外部世界将是互联网,对网络服务器的请求由此开始。 集群外部网络:外部世界通常通过防火墙与群集外部网络分开。集群外部网络是连接到访问区公开访问资源的所有接口的地方。 集群内部网络:集群内部网络是一个内部网络段,它将访问区、管理区、高性能计算区和数据存储区的组件相互连接。在本桌面演练指南中,内部防火墙被用来将访问区的资源与其他区的资源分开。 高性能网络:高性能计算网络用于互联高性能计算区的各个节点,以及连接高性能计算区和数据存储区的资源。该网段通常被设计为高速运行,并具有低延迟。 一个HPC系统被划分为四个功能区: 访问区 管理区 高性能计算区 数据存储区 访问区 访问区包含一个或多个连接到外部网络的节点,如互联网或其他组织网络。这个区域提供对用户和管理员访问和连接进行认证和授权的能力。访问区为使用各种服务提供便利,如交互式shell、基于网络的门户、数据传输和数据可视化。 管理区 管理区由一个或多个管理节点及云服务集群组成,提供HPC管理服务。这个区域允许HPC系统管理员执行管理操作,如配置和调配计算节点、存储和网络。此外,这个区域可以被用来执行身份管理、漏洞管理和系统审计。它还可以被利用来允许用户在通过访问区成功认证和授权后请求计算和存储服务的接口。管理软件模块,如作业调度器,在管理区运行。 高性能计算区 高性能计算区是由高速网络连接的池状计算节点组成的。这个区域提供的服务对大规模运行并行计算工作至关重要。 数据存储区 数据存储区由一个或多个高速并行文件系统组成,为用户数据提供数据存储。这些文件系统被设计用来存储非常大的数据量,并提供高速读写操作。 3.概述 桌面演习(TTX)是在一个非正式的、无压力的环境中,根据目前适用的政策、计划和程序,促进对脚本情景的讨论。TTX的目的是促进对概念的理解,确定优势和劣势,并为政策和程序的改变提供建议。 TTX的主要阶段和产出介绍如下: 演习规划小组 演习计划小组(EPT)对任何演习的成功都至关重要。该小组应在演习前三个月选定。规划小组的职责包括但不限于: 获得领导层/管理层的认同引导发展进程 获得资源 安排和协调 确定演习的范围 确定目标 确定参与者 开发TTX材料(即讲义、幻灯片、表格) 规划小组应仔细挑选,由可能受影响的业务单位的代表组成。该小组应具有可管理的规模,不应成为演习的参与者。对EPT成员的建议包括: 行政领导 HPC系统管理 网络安全/信息安全 HPC应用开发者 利用HPC环境的研究人员信息技术 事故应对人员/法医 法律 媒体关系 在进行网络安全桌面演练时,至关重要的是,参与演练的不仅仅是网络安全和团队。网络安全事件有可能影响到网络安全和I以外的业务部门的运作,在事件应对计划中需要考虑到这些业务部门的需求,以确保尽可能地减少对业务的影响。恢复和响应需要许多功能和人员您计划中的一些合作伙伴可能是外部的。为了有效测试响应和恢复计划,应该让各种内部和外部团队参与进来。 当决定让利益相关者参与演习时,还必须考虑到桌面演习活动可以作为提高对安全问题以及它们如何影响业务的认识的重要手段。建立一个有效的安全计划需要网络安全和I以外的利益相关者的支持和认同。桌面演习是一个很好的方式来说明在网络安全事件中可能出现的操作问题,并因此获得不同利益相关者的支持和认可。桌面演习可以帮助缩小差距,提高对有效的网络安全在HPC环境中的重要性的认识。 4.桌面演习场景的开始 这个桌面演习是围绕一个HPC系统进行的,该系统有一个基于Web的前端(访问区),允许应用程序的用户将数据提交给HPC集群进行处理。网络服务器由防火墙保护,只允许HTTPS流量通过。网络服务器与HPC集群被另一个防火墙隔开,该防火墙只允许网络服务器与HPC集群之间的互动所需的流量通过。高性能计算、数据存储和管理区都在这第二道防火墙后面。该架构保持最小化,以使桌面练习更普遍地适用于利用HPC的各种组织。 那是一个星期二的早上9点半,HPC管理员与I部门合作,为上线一个新的基于网络的应用程序做最后的润色。该应用程序使用该组织的一个HPC系统作为一种新形式的基因序列比对的后端,这使得生物信息学研究界有了一种识别基因序列相似性的增强方式。该应用程序允许研究人员以文件的形式上传基因序列,然后将其与数百万其他基因序列进行比较,以比传统算法(如基本局部排列搜索工具(BLAST))更高的速度和保真度找到匹配。 需要考虑的问题: 1.该组织是否有编写HPC应用程序或其网络前端的开发人员接受过应用程序安全方面的培训? 2.该组织是否制定了安全应用开发的标准,明确规定了输入验证、转义和其他关键应用安全控制的需要? 3.组织是否授权在应用程序上线前进行任何形式的安全测试?a.静态应用安全测试(SAST)? b.动态应用安全测试(DAST)?c.渗透测试? 4.组织是否有一个正式的计划来维护已发布的应用程序,包括报告和补救安全问题? 5.您的组织是否有一个正式的DevSecOps方法,类似于CSA的《D