您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中国移动研究院]:新型智算中心以太网物理层安全(PHYSec)架构白皮书 - 发现报告
当前位置:首页/行业研究/报告详情/

新型智算中心以太网物理层安全(PHYSec)架构白皮书

新型智算中心以太网物理层安全(PHYSec)架构白皮书

新型智算中心以太网物理层安全(PHYSec)架构白皮书 (2024年) 发布单位:中移智库 编制单位:中国移动通信研究院 前言 随着AI大模型对算力的需求呈现指数级增长,具有大规模算力的智算中心正在全球范围内进行大规模建设与部署。智算中心通过以太网传输涉及到企业安全生产的AI模型参数以及敏感数据,其在传输的过程中面临着泄露的风险,具有极高的安全诉求。本白皮书面向未来智算中心规模建设和AI大模型发展及部署需求,提出以太网物理层安全(PHYSec)体系架构及技术方案,解决RDMASec、MACSec等现有安全方案在智算中心场景下面临的安全漏洞与性能瓶颈问题,为智算中心的网络保驾护航。 本白皮书旨在提出中国移动及产业合作伙伴对以太网物理层安全PHYSec技术的愿景、架构设计和能力要求。希望能够为产业在规划设计以太网物理层安全相关技术、产品和解决方案时提供参考和指引。 本白皮书由中国移动通信有限公司研究院主编,腾讯云、清华大学、东南大学、华为技术有限公司、中兴通讯有限公司、博通公司、默升科技(上海)有限公司、上海橙科微电子科技有限公司、烽火通信科技股份有限公司、新华三技术有限公司、锐捷网络股份有限公司、英特尔(中国)有限公司、苏州盛科通信股份有限公司、杭州云合智网技术有限公司、深圳市楠菲微电子有限公司、篆芯半导体(南京)有限公司、苏州旭创科技有限公司、索尔思光电、苏州卓昱光子科技有限公司、武汉光迅科技股份有限公司、迈普通信技术股份有限公司(中国电子-迈普通信)、思博伦通信科技(北京有限公司)、是德科技 (中国)有限公司、唯亚威通信技术(北京)有限公司、珠海星云智联科技有限公司、中科驭数(北京)科技有限公司、上海云脉芯联科技公司、深圳云豹智能有限公司联合编撰。 本白皮书不包含我国科技发展战略、方针、政策、计划等敏感信息。不包含涉密项目的背景、研制目标、路线和过程,敏感领域资源、数据,关键技术诀窍、参数和工艺信息。本白皮书的版权归中国移动所有,未经授权,任何单位或个人不得复制或拷贝本建议之部分或全部内容。 目录 1.技术背景与需求1 2.以太网物理层安全技术架构5 2.1技术愿景5 2.2设计原则6 2.2.1兼容性原则6 2.2.2互通性原则7 2.2.3一致性原则7 2.3技术体系与关键机制7 2.3.1物理层身份认证机制10 2.3.2物理层密钥管理机制11 2.3.3物理层数据加解密机制14 2.4技术优势17 3.应用与部署22 3.1应用场景22 3.2部署架构24 4.总结与展望26 缩略语列表27 参考文献29 1.技术背景与需求 随着AI大模型的迭代速度呈指数级增长,AIGC(AI-GeneratedContent)等应用预计将在全球范围内产生数万亿美元的经济价值。作为AI技术发展的基础设施底座,智算中心也逐渐在全球范围内大规模建设和部署。传统数据中心网络存在时延及吞吐受限、负载分担不均、拥塞控制精度低、安全保护机制难部署等问题。针对这些问题,全调度以太网(GSE)在兼容现有以太生态前提下,提出基于虚拟容器的调度转发,逐包的动态负载均衡机制,以及精细流控反压等创新技术,获得业内广泛认可,并在中国通信标准化协会(CCSA)TC3工作组推动《全调度以太网总体技术要求》和《智能计算中心网络协议能力总体技术要求》立项,为智算中心提供开放标准的网络解决方案。 当前,智算中心以大量数据为资源,利用强大算力驱动AI大模型对数据进行深度加工,产生各种智慧计算能力,以云服务形式提供给组织及个人。在此过程中,涉及大量数据资源在入算、算内和算间网络场景的处理和传递。这些数据已成为企业十分重要的商业资产,一旦被窃听攻击或泄露,将产生难以估计的经济损失,因此如何保障数据安全将是智算中心发展的核心问题。对于入算场景,互联网或者用户设备实时上传的敏感或隐私数据须经过广域网或城域网等入算网络到达智算中心用于AI大模型训练,这些数据在传输过程中存在泄露的风险。对于算内场景,AI训练与推理过程中使用到的模型、参数以及用户数据需要在计算节点间频繁传递,同样存在泄露或被窃 听的风险。对于算间场景,用于传输智算中心间算力资源的高速互联光纤链路以及相关设施暴露在物理环境中,存在被攻击窃听的风险。综上所述,用户数据在入算上传、算内传递以及算间传输这三个场景都存在安全加密的需求。 上述智算中心三个网络场景的底层承载网络主流技术是以太网,为此须对以太网提供安全认证、密钥管理以及数据加解密能力,以应对日益严峻的安全挑战。考虑到智算中心场景所承载的AI与HPC业务对时延、带宽等网络性能的极致追求,智算中心以太网安全技术需要具备如下核心能力: 一是存量设备和芯片的兼容能力。为了使加密流量可以达到线速,加密模块会在芯片中硬化实现。以太网已部署的存量设备可能存在硬件芯片无法更换的情况,因此以太网数据加密技术需要利旧现有网络设备,具备向下兼容能力。 二是低时延、低开销的数据加解密能力。随着AIGC等应用的发展,对海量算力芯片间高吞吐、低时延数据传输的需求更为迫切。因此在对以太网链路提供安全加密的同时,也需要关注数据加解密带来的时延与开销。 三是以太帧和管控协议的全加密能力。以太网链路会发送一些特殊的协议帧,如基于优先级的流量控制帧等。这些特殊的协议帧无法被传统的网络安全机制所保护。针对隐私保护要求高的场景,也需要对以太帧进行全加密保护,包括加密帧头部以及掩盖帧发送频率、帧长等流量特征,以防止流量分析攻击。 四是简单高效的认证和密钥管理机制。认证和密钥管理涉及大量的安全会话,需要消耗计算节点的CPU以及网卡内存资源,影响计算节点的算效。因此需要简单高效的认证和密钥管理机制降低安全会话数量。 现有安全加密机制可以提供不同网络层级的数据安全防护,但是无法同时满足上述的关键能力需求。在传统数据中心网络中,RDMA技术得到了广泛应用。部分标准组织提出在RDMA的网络层实现端到端的数据加密机制(RDMASec)[1]。业界已有厂家发布基于IPSec的改进方案,来尝试满足智算中心的安全需求[2]。此外,基于IEEE802.1AE标准的MACSec可以为以太网设备之间提供数据链路层逐帧的安全加密通信,在园区办公场景得到较广泛应用[3]。然而RDMAsec及MACSec应用于智算中心场景时仍存在如下问题:1)难以兼容全部存量设备。业界现有芯片硬化的RDMASec及MACSec方案,需要在PHY芯片中进行比特流到包或帧的背靠背转换,将引入额外的实现复杂度与转换时延,也需要对设备硬件进行替换。2)引入封装开销。尤其是对短帧场景,会明显挤占业务带宽,影响AI业务算效。3)暴露以太帧头部信息,且无法完全掩盖报文长度、发包频率等流量特征,易被利用进行流量分析攻击[3,4]。无法保护基于优先级的流量控制帧 (PFC)或pause帧等以太帧。4)认证机制仅限于服务器、交换机等网络设备,无法对光模块进行认证;密钥管理机制安全复杂度高,需要消耗大量的CPU资源及网卡内存资源来维护节点间建立的安全会话,影响算效。 针对上述智算中心安全需求以及RDMASec、MACSec存在的问题,中国移动联合业界合作伙伴提出以太网物理层安全(PHYSec)技术架构,通过在以太网物理层对比特流进行加解密来保护所有上层协议,通过掩盖流量特征,解决流量分析攻击带来的安全威胁,同时实现低时延、低开销、协议透明的数据加解密。本白皮书的发布有望推动PHYSec技术的标准共识、技术成熟与商用落地,支撑智算中心的安全建设与快速发展。 2.以太网物理层安全技术架构 2.1技术愿景 物理层加密的概念早在1989年就在标准ISO7498-2中有所提及,但基于物理层加密的以太网技术还未曾出现[5]。现有网络安全技术的加密层次及密文保护范围如图2-1所示。从各层次网络安全技术的演进过程可以看到,越往上层的安全机制越灵活,而越往下层的加密机制可以提供更大的保护范围,且更易于与硬件结合。RDMASec是介于IPSec与TLS之间的改良技术,但是引入的时延与开销难以满足智算中心的安全需求。以太网物理层处于网络协议栈的更低层次,将安全加密与以太网物理层特性相融合来构建全新的以太网安全机制,有望解决上述RDMASec及MACSec所不能解决的问题。同时,物理层的加密更便于实现低时延、低开销、高吞吐、高安全的数据加密,满足智算中心场景对安全技术的要求。 图2-1安全机制演进趋势 本白皮书提出将物理层加密的理念与以太网物理层技术相融合构建以太网物理层安全技术—PHYSec,以实现低时延、高吞吐、高安全、低开销和协议透明等特性的安全加密机制,满足数据链路层及所 有上层协议的信息防护。如前所述,PHYSec是一种工作在以太网物理层的安全加密技术,对物理层的比特流进行加解密。所有以太帧、所有的管控协议以及帧间空隙均被物理层统一编码,可以被PHYSec有效保护,从而掩盖流量特征,具有极高的安全性。如图2-2所示,为明文数据、MACSec加密以及PHYSec加密三种传输方式的示例。PHYSec可以加密包括以太帧头部在内的全部用户信息,掩盖帧频率以及帧长度等流量特征,解决了RDMASec和MACSec难以防护流量分析攻击的问题。与此同时,PHYSec的加密对象是物理层的比特流,对上层业务和协议透明,构建加密对象时可以不受限于报文,与业务转发逻辑和协议处理无关。在构造合适的加密对象之后,PHYSec利用物理层原生OAM码块承载加解密所必需的安全参数,具有低开销的优势。 图2-2明文传输、MACSec加密以及PHYSec加密示例 2.2设计原则 2.2.1兼容性原则 PHYSec技术可以在以太网物理层PHY的不同位置实现。在PHY单元实现,要求兼容IEEE802.3标准,不影响标准规范的功能与协议;在PMD模块实施,要求兼容PMD模块已有标准及架构,不影响标准规范的功能与协议。 2.2.2互通性原则 PHYSec原则上可支持链路级和通道级的技术方案,类似MACSec (802.1AEbw-2013forport,802.1AEcg-2017forchannel),实施部署载体可以是PHY接口,也可是光模块或其他载体。同一层次方案,要求技术与协议一致,满足互联互通要求。协议承载方案,要求少占用或不占用业务带宽。 2.2.3一致性原则 对于IEEE802.3规范的以太网100G/200G/400G/800G/1.6T接口,虽然PHY各逻辑子层技术方案有区别,但PHYSec原则上要求采用一套解决方案和协议。协议的承载方式可以根据PHY逻辑子层的要求变化,但要求遵循前述兼容性原则与互通性原则等设计原则。 PHYSec作为网络安全技术,技术逻辑同MACSec(解决如何将密码学算法应用于数据链路层的问题)、IPSec(解决如何将密码学算法应用于网络层的问题),解决如何将密码学算法应用于网络物理层的问题。 2.3技术体系与关键机制 本白皮书提出的PHYSec技术体系架构主要包括三个层次:认证通道层、密钥管理层和数据加解密层,如图2-3所示。 图2-3PHYSec技术体系架构 •认证通道层:负责对设备及光模块的身份认证与身份管理,确保相互通信的两端是合法的以太网设备。认证通过后,需要对认证通道进行保活。认证通道层的功能主要由平台业务软件实现。 •密钥管理层:负责运行过程中密钥的派生与管理、密钥定期更新分发以及密钥超期等异常状态处理。密钥分发完成后,还需要对使用该密钥的加密链路进行保活。密钥管理层的功能主要由平台业务软件实现。 •数据加解密层:分为链路级加解密与通道级加解密。基于系统下发的密钥,分别通过加密引擎和解密引擎对信号进行加密和解密操作。数据加解密层可以在光模块或PHY芯片实现。 PHYSec的认证通道层、密钥管理层以及数据加解密层都可以与更上层的管控系统进行交互,从而对安全状态进行监控,如查询安全 身份是否过期、密钥超期上报、以及加解密失败告警等安全管控操作。 应用接入与控制平台也可以实

你可能感兴趣

hot

王豪杰:PHYSec安全加密技术及在智算中心的应用

信息技术
中国移动研究院2023-11-22
hot

2023智算中心网络架构白皮书

信息技术
百度2023-08-17
hot

2023新型智算中心算力池化技术白皮书

信息技术
中移智库2023-09-12