您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[开放数据中心委员会]:大规模智算中心网络技术白皮书 - 发现报告
当前位置:首页/行业研究/报告详情/

大规模智算中心网络技术白皮书

大规模智算中心网络技术白皮书

大规模智算中心网络技术白皮书ODCC-2023-03003 1 [编号ODCC-2023-03003] 大规模智算中心网络技术白皮书WhitepaperonLarge-scaleSmartComputingCenterNetworkTechnology (2023年) 开放数据中心委员会2023-09发布 大规模智算中心网络技术白皮书ODCC-2023-03003 版权声明 ODCC(开放数据中心委员会)发布的各项成果,受《著作权法》保护,编制单位共同享有著作权。 转载、摘编或利用其它方式使用ODCC成果中的文字或者观点的,应注明来源:“开放数据中心委员会ODCC”。 对于未经著作权人书面同意而实施的剽窃、复制、修改、销售、改编、汇编和翻译出版等侵权行为,ODCC及有关单位将追究其法律责任,感谢各单位的配合与支持。 I 大规模智算中心网络技术白皮书ODCC-2023-03003 编写组 项目经理: 王瑞雪中国移动工作组长: 王超阿里云计算有限公司 中国移动研究院 锐捷网络股份有限公司中兴通讯股份有限公司 贡献单位 华为技术有限公司 盛科通信股份有限公司思科 上海云脉芯联科技有限公司珠海星云智联科技有限公司 II 大规模智算中心网络技术白皮书ODCC-2023-03003 前言 目前,AIGC(AI-GeneratedContent,人工智能生产内容)发展迅猛,迭代速度呈现指数级增长,全球范围内经济价值预计将达到数万亿美元。AI大模型的参数量呈指数增长态势,GTP-3参数量达1750亿。随着模型参数规模与性能提升后,AI大模型训练对于网络的需求相比于传统模型也随之产生变化。数据并行、模型并行等分布式训练成为支撑超大规模、超高复杂度AI模型训推重要手段。 为满足大规模训练集群高效的分布式计算,AI大模型训练流程中通常会包含数据并行、流水线并行及张量并行等多种并行计算模式,不同并行模式下均需要多个计算设备间进行集合通信操作。另外,训练过程中通常采用同步模式,需多机多卡间完成集合通信操作后才可进行训练的下一轮迭代或计算。因此,在AI大模型的大规模训练集群中,如何设计高效的集群组网方案,满足低时延、高吞吐的机间通信,从而降低多机多卡间数据同步的通信耗时,提升GPU有效计算时间占比(GPU计算时间/整体训练时间),对于AI分布式训练集群的效率提升至关重要。以下将从规模、带宽、时延、稳定性及网络部署角度分析AI大模型对于网络的需求。 本白皮书针对大模型AI业务特点分析出其对智算中心网络的需求,结合交换机芯片和DPU产品的演进及路由协议、拥塞算法、网路负载均衡机制的创新,探索新一代智算中心高性能网络的应用场 III 大规模智算中心网络技术白皮书ODCC-2023-03003 景、发展趋势、技术及工程体系要求,优化智算中心网络的有效吞吐、时延抖动及网络可靠性,以满足面向未来智算中心规模建设和AI大模型发展的部署需求,为新一代智算中心网络建设提供行业方向和参考。 IV 大规模智算中心网络技术白皮书ODCC-2023-03003 目录 版权声明I 编写组II 前言III 一、AI业务对高性能网络的诉求1 (一)现有智算中心网络技术存在问题3 二、高性能网络技术体系5 (一)智算中心网络技术体系5 (二)新型智算中心网络拓扑7 1.Fat-Tree8 2.Dragonfly拓扑11 (三)高性能硬件平台12 1.高性能交换机12 2.DPU网卡13 (四)高性能网络体系14 1.拥塞控制机制14 2.高性能网络协议16 3.路由协议优化17 4.网络负载均衡机制18 5.高性能通讯库22 6.网络自动化23 7.网络运维体系24 (五)性能评测分析优化26 V 大规模智算中心网络技术白皮书ODCC-2023-03003 1.MircoBenchmark26 2.ModelBenchmark29 三、总结与展望32 VI 大规模智算中心网络技术白皮书ODCC-2023-03003 术语与缩略语 缩略语 英文全称 中文解释 AI ArtificialIntelligence 人工智能 AIGC AIGeneratedContent 生成式人工智能 ASIC ApplicationSpecificIntegratedCircuit 专用集成电路 CPO Co-packagedoptics 光电共封装 DCQCN DataCenterQuantizedCongestionNotification 数据中心量化拥塞通知 DPU DataProcessingUnit 数据处理单元 ECMP EqualCostMultiPath 等价多路径 ECN ExplicitCongestionNotification 显式拥塞通知 FEC ForwardErrorCorrection 前向纠错 GPU GraphicsProcessingUnit 图形处理器 ML MachineLearning 机器学习 NCCL NvidiaCollectivemulti-GPU CommunicationLibrary 英伟达集合通信库 PCIe PeripheralComponentInterconnectexpress 高速串行计算机扩展总线标准 HoL Head-of-LineBlocking 队头阻塞 HPC HighPerformanceComputing 高性能计算 RoCE RDMAoverConvergedEthernet 融合以太网承载RDMA RTT Round-TripTime 往返时延 RDMA RemoteDirectMemoryAccess 远程直接数据存取 UCX UnifiedCommunicationX 统一抽象接口 VOQ VirtualOutputQueue 虚拟输出队列 VII 大规模智算中心网络技术白皮书ODCC-2023-03003 一、AI业务对高性能网络的诉求 随着AI大模型参数量爆炸性增长,“大模型”正在向“超大模型”演进。单台GPU服务器的算力资源已无法满足大模型的部署和训练需求,需要构建千卡甚至万卡级别GPU集群共同完成一个模型的训练。为了满足大规模训练集群高效的计算需求,数据并行和模型并行等分布式训练成为关键手段,而分布式训练带来大量由GPU集群不同节点之间频繁地参数同步带来大量的网络通信开销,网络性能和规模成制约AI大模型训练效率的瓶颈。 分布式AI训练的原理为一个计算任务会通过多种并行策略分配给多个计算节点完成,训练过程属于多轮的迭代计算,每一轮的迭代完成后才能启动下一轮,直到训练任务完成。以128台GPU服务器节点进行GPT-3的175B训练为例,一次训练任务通常是多种并行策略混合使用,训练过程需要大量的数据同步,使得该通信场景具有规模大、复杂度高等特点。在该训练场景中任何一个字节的延迟,都会将整体任务的完成时间拉长,甚至导致任务失败,与此同时随着并行计算节点的增加将会导致通信复杂度呈指数级提升。常见的并行策略分为张量并行、流水线并行和数据并行。张量并行:将一个多层神经网络横向切分成多个层数相同的子模型,每个子模型被分配1个独占的GPU来进行训练。通常需要在神经网络的每一层进行全局参数同步,主机内一般使用NVLink进行数据通信,每轮迭代过程数据量约600GB/节点。 1 大规模智算中心网络技术白皮书ODCC-2023-03003 流水线并行:将一个多层神经网络纵向切分成多个包含部分层的子模型,不同子模型之间采用流水线方式同时处理多个输入的训练任务。子模型之间传递的数据通常使用跨服务器的网络通信,每轮迭代过程数据量约2GB/节点。 数据并行:将训练数据集拆分成大小相同的若干份,多个流水线用不同的数据集进行训练,在各组完成训练之后需要进行全局的参数同步。参数同步通常通过机间网络来完成,每轮迭代过程数据量约10GB/节点。 图1并行策略示意图 此外,AI训练业务通常使用RDMA协议来降低端侧处理的时延,而RDMA的高效通信依赖于无损网络(零丢包),一旦发生丢包后网络的整体吞吐效率将大幅下降。以GPT-3训练的理论估算模型分析结果看,当网络丢包率为千分之一时,GPU有效计算时间占比将下降13%,网络丢包率达到1%,GPU有效计算时间占比将低于5%。 2 大规模智算中心网络技术白皮书ODCC-2023-03003 综上所述,实现大带宽、低时延、零丢包及较小长尾时延的高性能网络成为提升AI大模型训练的关键因素。 (一)现有智算中心网络技术存在问题 如今,业界已经采用RoCEv2网络协议、PFC、ECN等拥塞控制算法和基于流的哈希算法进行链路负载分担等关键技术进行组网,但在实际应用中,这些技术都不同程度地暴露出不少问题,分别如下: 一是ECMP负载不均:传统基于流的等价多路径路由(EqualCostMultiPath,ECMP)负载均衡技术在流量数小、单流流量大的情况下可能失效,导致链路负载不均。当某些物理链路负载过大时,容易出现拥塞甚至网络丢包。 二是被动的拥塞控制:分布式训练的多对一通信模型产生大量In-cast流量,造成设备内部队列缓存的瞬时突发而导致拥塞甚至丢包,造成应用时延的增加和吞吐的下降。PFC(Priority-basedFlowControl)和ECN(ExplicitCongestionNotification)都是拥塞产生后,再进行干预的被动拥塞控制机制,它们无法从根本上避免拥塞,反而会降低GPU利用率,进而拉低业务训练效率。 三是路由决策无全局性:业界通过CLOS架构搭建大规模分布式转发结构来满足日益增长的转发规模需求,在该架构下,各节点分 3 大规模智算中心网络技术白皮书ODCC-2023-03003 布式运行和自我决策转发路径导致无法完全感知全局信息和实现最优的整网性能。 四是稳定性保障是难题:大模型一次训练往往需要几百甚至上千小时,中间出现任何故障,都要花费相当长的时间来恢复训练。网络中每个部件都有概率出现异常。系统越大,整体出现问题的概率就越高。服务于大模型的计算集群的网络,稳定性保障是业界普遍面临的难题。 五是网络服务能力需灵活:云计算为用户提供易用灵活、可扩展、低成本的算力服务,目前主流的方式是基于容器开展训练任务部署,在物理网络之上建立虚拟连接以提供RDMA服务。但是物理资源虚拟化天然会产生性能损耗,而大模型训练是性能敏感型应用场景,如何实现网络“容器化”,同时不带来高昂的虚拟化性能开销是一个新的难题。 4 大规模智算中心网络技术白皮书ODCC-2023-03003 二、高性能网络技术体系 (一)智算中心网络技术体系 高性能网络是指为数据中心提供高带宽、低时延、高可靠、高扩展性服务的网络连接。相比通用的数据中心网络,高性能网络在连通性的基础上对网络性能上有更高的要求。高性能网络目前常用于分布式存储、分布式并行计算等对通信开销有较高要求的应用场景,通过利用高性能网络技术降低分布式系统的通信开销,从而来提升整个系统的性能及线性加速比。 高性能网络技术是一个非常复杂的系统性技术,主要包括新型网络拓扑、高性能硬件平台、高性能网络协议、高性能网络通信库四部分组成,这些组件需要协同设计才能发挥出更好的性能。需要各个组件协同工作才能获得更高的性能,其中有如下几个最关键的组件: 1)新型网络拓扑:智算中心网络物理拓扑的设计一方面要满足规模组网的需求,另一方面要适配通信模型为业务通信提供更少的跳数和充足的网络带宽。当前业界通常采用胖树(Fat-Tree)网络架构,但也存在面向特定场景的Dragonfly、2D-Torus、3D-Torus、Hypercube等专用拓扑。因此,在拓扑设计阶段,应根据AI训练流量模型的特点以及AI服务器规模选择合适的组网方案。 2)高性能硬件平台:高性能硬件平台是实现高性能网络的基础,该平台包括了提供高吞吐低延时性能的交换机,以及支持RDMA功能 5 大规模智算中心网络技术白皮书