您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中兴]:2025年面向智算场景的高性能网络白皮书 - 发现报告

2025年面向智算场景的高性能网络白皮书

信息技术2025-03-16中兴付***
AI智能总结
查看更多
2025年面向智算场景的高性能网络白皮书

面向智算场景的 高性能网络白皮书 编制说明 本白皮书在编制过程中得到了多家单位的大力支持,联合编制单位如下(排名不分先后): 中国联通研究院 中国信息通信研究院 V1.0发布时间2025年2月 ©2025ZTECorporation.Allrightsreserved.2025版权所有中兴通讯股份有限公司保留所有权利版权声明: 本文档著作权由中兴通讯股份有限公司享有。文中涉及中兴通讯股份有限公司的专有信息,未经中兴通讯股份有限公司书面许可,任何单位和个人不得使用和泄漏该文档以及该文档包含的任何图片、表格、数据及其他信息。 本文档中的信息随着中兴通讯股份有限公司产品和技术的进步将不断更新,中兴通讯股份有限公司不再通 目录 1前言1 2术语和缩略语1 3高性能网络关键需求和挑战3 3.1高性能数据中心网络(HP-DCN)3 3.1.1支持超大规模组网是基础3 3.1.2超高稳定性是前提4 3.1.3极致高性能是核心5 3.1.4多维自动化运维体系是必需6 3.1.5可规模扩展的安全机制是保障7 3.2高性能广域网(HP-WAN)8 3.2.1有效高吞吐量是焦点8 3.2.2公平共享高带宽是关键8 4高性能网络技术架构9 4.1高性能网络技术现状和趋势9 4.2中兴高性能网络技术架构10 5高性能数据中心网络关键技术12 5.1超大规模组网关键技术12 5.1.1大规模组网交换机:硬件基础,容量速率双升12 5.1.2大规模组网路由协议:可扩展快速部署,组播能力提供13 5.2超高稳定性关键技术19 5.2.1故障无感恢复:硬件检测,多级保障19 中兴通讯版权所有未经许可不得扩散 5.2.2链路级可靠:轻量级FEC,链路层重传21 5.2.3端网协同的路径控制:端侧传递需求网络精准控制22 5.2.4网络隔离与资源保障:网络拓扑隔离,资源合理分配23 5.3极致高性能关键技术24 5.3.1层次化负载均衡:整网规划,局部调优,多粒度负载均衡24 5.3.2拥塞控制:算法无关,迅捷智能25 5.3.3集合通信卸载:统一编排,轻量传输27 5.4多维自动化运维关键技术:层次化可观测体系,高精度感知29 5.5可规模扩展安全机制关键技术:零信任模型,轻量级加密,安全会话无关32 5.5.1零信任安全架构32 5.5.2可扩展安全协议33 6高性能广域网关键技术34 6.1主动拥塞避免34 6.2近源端反馈机制34 6.3端网协同速率协商34 6.4任务式传输及配额调度34 6.5基于流的网络监控35 7展望35 8参考文献37 1前言 智算场景的普惠化正带来新一轮网络技术的革新浪潮。 随着生成式人工智能的发展,AI大模型参数量从GPT-3.5的1.75亿,到GPT-4的1.8万亿,预计未来GPT-5将达到十万亿参数规模,迅速膨胀的AI模型需要更大规模的算力集群执行训练。AI大模型以GPU集群分布式训练为基础,根据阿姆达定律,串行占比决定并行效率上限,网络成为影响算力的重要因素。AI训练任务的高精度并行协同特性以及超大集群互联吞吐量对网络性能提出了数量级的提升需求。AI大模型训练的时间往往长达数月,也使得网络的长稳运行变得前所有未有的重要。从网络流量模型来看,AI大模型训练流量与通算流量呈现出完全不同的特征,突发的稀疏大流成为网络常态,聚合流量具备波峰波谷效应明显、周期性等特征,也使得很多通用数据中心的网络技术不再适用。HPC同样对网络提出高性能需求,特别是在可扩展性以及分布式资源的高效利用方面,HPC与AI的需求趋同。一般来说HPC对于时延更加敏感,但部分采用并行通信的计算模型,同样也关注长尾时延。 AI和HPC集群规模和服务范围的扩大对广域网传输也提出全新需求,包含数据协同和数 据快递两大应用场景。数据协同应用主要面向AI/HPC的分布式协同,例如在跨DC的AI训练过程中的是训前模型和数据上载,以及训练期间数据和状态同步过程;数据快递场景包括数据灾备、大规模科学数据传递等。以上都需要广域网具备高性能海量数据传输的能力。 综上,面对大规模AI/HPC的计算、存储和通信需求,不仅数据中心内部的大规模密集数据交换需要高性能网络的支撑,还需要网络能够高效地连接多个数据中心或站点,实现跨地域的AI/HPC业务的高效协同。 本白皮书从面向智算业务的高性能网络需求和技术挑战出发,分析高性能网络技术发展现状和趋势,并探索更适合行业协同发展的高性能网络技术架构和关键技术。 2术语和缩略语 缩略语 英文全称 中文含义 AEAD AuthenticatedEncryptionwithAdditionalData 带有身份认证的加密算法 AES AdvancedEncryptionStandard 高级加密标准 AI ArtificialIntelligence 人工智能 以下缩略语适用于本白皮书。 AIGC ArtificialIntelligenceGeneratedContent 生成式人工智能 ARN AdaptiveRoutingNotification 自适应路由通知 BBR BottleneckBandwidthandRound-trippropagationtime 瓶颈带宽和往返传播时间 BGP BorderGatewayProtocol 边界网关协议 BIER BitIndexedExplicitReplication 位索引显式复制 CCO CollectiveCommunicationOffloading 集合通信卸载 CCOM CollectiveCommunicationOffloadingManager 集合通信卸载管理 CNP CongestionNotificationPacket 拥塞通告报文 CPU CentralProcessingUnit 中央处理器 CSIG CongestionSignaling 拥塞信令 DSF DistributedScheduledFabric 分布式全调度网络 DOM DigitalOpticalMonitoring 数字光学监控 ECMP Equal-CostMultiPathrouting 等价多路径路由 ECN ExplicitCongestionNotification 显式拥塞通知 ENCC End-NetworkCooperationCongestionControl 端网协同的拥塞控制 FEC ForwardErrorCorrection 前向纠错 GCM Galois/CounterMode 伽罗瓦/计数器模式 GPU GraphicsProcessingUnit 图形处理器 HPC HighPerformanceComputing 高性能计算 HPCC++ EnhancedHighPrecisionCongestionControl 增强的高精度拥塞控制 HP-WAN HighPerformanceWideAreaNetwork 高性能广域网 IFA InbandFlowAnalyzer 带内流分析器 IGLB IntelligenceGlobalLoadBalance 全局负载均衡 IGP InternalGatewayProtocol 内部网关协议 INT InbandNetworkTelemetry 带内网络遥测 IOAM InsituOperations,Administration,andMaintenance 带内OAM JCT jobcompletiontime 任务完成时间 KDF KeyDerivationFunction 密钥派生函数 MOD MirrorOnDrop 丢包镜像 MTU MaximumTransmissionUnit 最大传输单元 NCPC Network-coordinatedPathcontrol 网络协同的路径控制 PIM ProtocolIndependentMulticast 协议无关组播 RIFT RoutingInFatTrees 胖树路由协议 RTT Round-TripTime 往返时延 ZTP ZeroTouchProvisioning 零接触配置 3高性能网络关键需求和挑战 3.1高性能数据中心网络(HP-DCN) 3.1.1支持超大规模组网是基础 在ScalingLaw(扩展定律)的驱动下,万卡GPU训练集群已成为AIGC核心玩家的及格线,智算中心正迅速朝着超万卡级别的规模迅速发展,国内云商如阿里巴巴、百度等陆续宣布具备10万卡集群的支持能力,而Grok-3的训练集群已达到20万卡级别,预计会有更多10万卡+智算集群出现。 如此大的组网规模势必引发网络技术的质变,高性能网络架构的主要功能设计以及性能要求,都需要放到支持超大规模网络的框架下重新考量。 支持超大规模组网的主要挑战包括:1)交换机接入容量的限制 服务器GPU网卡数量和接口速率在逐渐增加,呈现每两年翻倍的趋势,当前规模商用的GPU服务器网卡接口达到8*400G,支持800G的GPU服务器也已推出,为了满足接入需求,减少设备数量,对单交换机容量提出了越来越高的需求,而单交换芯片的容量提升节奏,明显落后于IO总线的发展,并且存在物理上限。 2)组网拓扑的限制 为了满足数十万卡乃至更大规模的组网需求,在交换机支持端口数短期无法跃升的情况下,传统的CLOS架构需要采用更多的网络层次,更多的网络层次意味着转发跳数增加,在带来更大时延的同时,更多跳数的路径也增大了故障发生的概率和定位难度,使得网络难以 运维;同时,各层级之间用于互联的端口数量剧增,若采用光纤连接,光模块部分的成本增加也不容忽视。 3)异构网络的互通挑战 大规模网络的构建可能会涉及多厂商设备,当前大模型训练网络仍处于技术方案耦合度较高、标准不完备的状态,未来设备间互通可能面临挑战。 3.1.2超高稳定性是前提 AI和HPC均是典型的分布式系统,网络作为分布式系统的连接底座,网络的故障或者性能波动会影响集群计算效率,因此网络自身的稳定性是整个系统稳定运行的基础。此外大规模训练或计算任务可能持续数周或数月时间,因此要求网络需具备长期持续的稳定性。 高性能网络的稳定性可采用如下两方面的指标衡量: 1)网络可用性:即网络无故障运行的时间,该指标主要与故障间隔时间以及故障恢复时间相关; 2)性能一致性:即在不同网络负荷状态下,网络性能指标具备稳定性与一致性。高性能网络的稳定性主要面临如下挑战: 1)网络设备故障感知能力不足,协议软件层面的故障感知时延在毫秒级,故障恢复效率低。 2)在大规模网络中,错包和丢包无法避免,链路中如误码产生的随机丢包对于模型训练的影响巨大,但缺乏与高性能组网需求匹配的恢复机制。 由于对带宽的强劲需求,网络需要采用更高的端口速率,但误码率也随之增加,为了纠错而引入的高精度FEC机制又会带来更大的时延。例如,400G及以上速率以太网普遍采用PAM4调制代替NRZ,以在不新增光纤的基础上增加网络带宽,有效提升传输效率;为了应对PAM4带来的比特错误率更高的问题,400G标准中采用了纠错能力更强的RS(544,514)FEC技术,但是这种纠错技术带来了更高的传输时延。基于400G以太网,对比RS(544,514)与轻量级前向纠错RS(272,258)两种FEC技术的时延,前者每包传输的时延约是后者的1.8倍。 针对丢包,现有技术多采用端到端重传机制,对网络吞吐影响较大。已有研究表明,基于RoCEv2的Go-back-N丢包恢复模型,当丢包率达到1%时,RDMA报文吞吐量接近为0。 3)不同负载情况下,网络性能指标波动,性能表现不一致。通用数据中心网络在轻载时一般都可以达到较高的性能,但AI训练是多任务集群,在多任务并存的情况下,同时满足各任务的高性能需求,对于网络资源的规划和保障提出了更高要求。 3.1.3极致高性能是核心 为了最大化集群算力利用率,AI大模型训练通常采用并行处理机制,将一