您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中国移动研究院]:全调度以太网技术架构白皮书1 - 发现报告
当前位置:首页/其他报告/报告详情/

全调度以太网技术架构白皮书1

2023-05-18-中国移动研究院笑***
全调度以太网技术架构白皮书1

全调度以太网技术架构白皮书 TheTechnicalFrameworkWhitePaperofGlobalSchedulingEthernet (2023年) 中国移动通信研究院 1 · 前言 本白皮书面向未来智算中心规模建设和AI大模型发展及部署需求,联合产业合作伙伴共同提出全调度以太网(GSE)技术架构,旨在突破智算中心网络性能瓶颈,打造无阻塞、高带宽及超低时延的新型智算中心网络,助力AIGC等高性能业务快速发展。 本白皮书的版权归中国移动研究院所有,并受法律保护。转载、摘编或利用其它方式使用本白皮书文字或者观点的,应注明来源。 目录 前言2 缩略语列表4 1.背景与需求5 2.GSE网络架构介绍6 2.1总体设计目标6 2.2整体架构概况6 2.2.1GSE整体架构6 2.2.2GSE架构设备7 2.2.3GSE架构特性8 2.3关键技术特征8 2.3.1兼容以太网技术8 2.3.2无阻塞网络9 2.3.3提高有效带宽9 2.3.4优化长尾时延技术10 3.GSE网络核心技术10 3.1PKTC机制11 3.1.1PKTC概念11 3.1.2PKTC开销12 3.1.3GSEHeader位置12 3.2基于PKTC的负载均衡技术13 3.2.1动态负载信息构建13 3.2.2动态路径切换技术14 3.2.3流量排序机制15 3.3基于PKTC的DGSQ调度技术15 3.3.1基于全局的转发技术16 3.3.2基于DGSQ的调度技术17 3.4精细的反压机制18 3.5无感知自愈机制18 3.6低时延转发技术19 3.7全调度以太网操作系统19 4.组网应用展望21 缩略语列表 缩略语 英文全名 中文解释 AI ArtificialIntelligence 人工智能 AIGC AI-GeneratedContent 人工智能生产内容 CPU CentralProcessingUnit 中央处理器 DPU DataProcessingUnit 数据处理单元 ECMP EqualCostMultiPath 等价多路径路由 ECN ExplicitCongestionNotification 显式拥塞通告 FC FibreChannel 光纤通道 GPU GraphicsProcessingUnit 图形处理器 GSF GlobalSchedulingFabirc 全调度交换网络 GSOS GlobalSchedulingOperatingSystem 全调度操作系统 GSP GlobalSchedulingProcessor 全调度网络处理节点 HoL Head-of-lineblocking 队首阻塞 JCT JobCompletionTime 任务完成时间 ML MachineLearning 机器学习 PFC Priority-basedFlowControl 基于优先级的流量控制 PHY Physical 端口物理层 PKTC PacketContainer 报文容器 RDMA RemoteDirectMemoryAccess 远程直接内存访问 RoCE RDMAoverConvergedEthernet 融合以太网承载RDMA VOQ VirtualOutputQueue 虚拟输出队列 DGSQ DynamicGlobalSchedulingQueue 动态全局调度队列 1.背景与需求 目前,AIGC(AI-GeneratedContent,人工智能生产内容)发展迅猛,迭代速度呈现指数级增长,全球范围内经济价值预计将达到数万亿美元。在中国市场,AIGC的应用规模有望在2025年突破2000亿元,这一巨大的潜力吸引着业内领军企业竞相推出千亿、万亿级参数量的大模型,底层GPU算力部署规模也达到万卡级别。以GPT3.5为例,参数规模达1750亿,作为训练数据集的互联网文本量也超过45TB,其训练过程依赖于微软专门建设的AI超算系统,以及由1万颗V100GPU组成的高性能网络集群,总计算力消耗约为3640PF-days(即每秒一千万亿次计算,运行3640天)。 分布式并行计算是实现AI大模型训练的关键手段,通常包含数据并行、流水线并行及张量并行等多种并行计算模式。所有并行模式均需要多个计算设备间进行多次集合通信操作。另外,训练过程中通常采用同步模式,多机多卡间完成集合通信操作后才可进行训练的下一轮迭代或计算。智算中心网络作为底层通信连接底座,需要具备高性能、低时延的通信能力。一旦网络性能不佳,就会影响分布式训练的质量和速度。 面向未来智算中心规模建设和AI大模型发展及部署需求,中国移动联合多家合作伙伴推出了全调度以太网技术方案(GSE),打造无阻塞、高带宽及超低时延的新型智算中心网络,助力AIGC等高性能业务快速发展。 2.GSE网络架构介绍 2.1总体设计目标 全调度以太网面向AI、HPC等高性能计算场景设计,架构设计遵循以下三大原则: 全调度以太网构建开放透明标准化的技术体系,供所有高性能计算生态涉及到的芯片(GPU、DPU、CPU等)、设备(服务器、交换机、网卡等)、仪表、操作系统等上下游产业共同使用。 全调度以太网可适应多种高性能计算场景,凡是涉及到无损、高带宽利用率、超低时延需求的业务场景均可通用。 全调度以太网不是重造以太网,而是将高性能计算需求融入以太网,可最大限度地重用以太网物理层,兼容以太网生态链,如光模块、PHY层芯片等。 2.2整体架构概况 为打造无阻塞、高带宽、低时延的高性能网络,GSE架构应运而生,该架构主要包括计算层、网络层和控制层三个层级,包含计算节点、GSP、GSF及GSOS等四类设备。 2.2.1GSE整体架构 全调度以太网是具备无阻塞、高吞吐、低时延的新型以太网架构,可更好服务于高性能计算,满足AI大模型部署及训推需求。全调度以太网架构自上而下分为三层,分别为控制层、网络层和计算层,其中关键点在于创新的引入一种全新的动态全局队列调度机制。动态全局调度队列(DGSQ)不同于传统的VOQ,其不是预先基于端口静态分配,而是按需、动态基于数据流目标设备端口创建,为了节省队列资源数量,甚至可以基于目标或途径设备的拥塞反馈按需创建。基于DGSQ调度以实现在整个网络层面的高吞吐、低时延、均衡调度。 控制层:包含全局集中式GSOS,以及GSP和GSF设备端分布式NOS。其中,集中式GSOS用于提供网络全局信息,实现基于全局信息编址(例如设 备节点ID等)、日常运维管理等功能。设备端分布式NOS具备独立的控制面和管理面,可运行容器的负载均衡、DGSQ调度等属于设备自身的网络功能,通过设备分布式管控能力,提升整网可靠性。 网络层:通过GSP和GSF的分工协作,构建出具备全网流量有序调度、各链路间负载均衡、网络异常精细反压等技术融合的交换网络,是全调度以太网的主要实现层。其中,Fabric部分可支持二层GSF扩展,以满足更大规模的组网需求。 计算层:包含高性能计算卡(GPU或CPU)及网卡,为全调度以太网的服务层。初期将计算节点作为全调度以太网边界,仅通过优化交换网络能力提升计算集群训练性能。未来考虑计算与网络深度融合,将GSP相关方案延伸到网卡层或者GPU直出网卡模块实现,与网络层进行联动形成算网协同的全调度以太网,进一步提升高性能计算性能。 图2-1GSE技术分层架构 2.2.2GSE架构设备 GSE架构包括计算节点、GSP、GSF及GSOS四类设备,各设备间协同工作,分工如下: 计算节点:即服务器侧的计算卡、网卡,提供高性能计算能力。 GSP:网络边缘处理节点,用以接入计算流量,并对流量做全局调度;流量上行时,具备动态负载均衡能力。流量下行时具备流量排序能力。 GSF:网络核心交换节点,作为GSP的上一层级设备,用于灵活扩展网络规 模,具备动态负载均衡能力,以及反压信息发布能力。 GSOS:全调度操作系统,提供整网管控的集中式网络操作系统能力。 2.2.3GSE架构特性 考虑到AIGC等AI/ML应用快速发展以及当前标准以太网规模部署现状, GSE架构应具备灵活可扩展性,并最大限度兼容以太网特性。GSE架构特性具体如下: 灵活扩展:支持万卡高性能计算集群部署,以GSP+GSF的两层网络为常用形态,支持横向扩容。当计算节点进一步扩大,两层网络架构不足以支撑时,可灵活扩展成GSP+GSF+GSF的三层网络架构,保留扩展到更多层GSF组网的能力,以满足业务部署需求。 生态开放:秉持生态开放的原则,构建标准开放的技术协议栈,促成多厂家设备间的互联互通,共同构建全调度以太网的网络层,为大规模分布式计算提供高效的网络基础。 硬件通用:所有网络节点均支持标准以太网,无需专用的信元处理节点,可与标准以太设备无缝切换。其中,GSP和GSF设备虽然角色分工不同,但均以以太报文交换为基础,转发硬件具有通用性,设备角色可以由软件版本控制,从而支持更灵活的部署和维护。 2.3关键技术特征 2.3.1兼容以太网技术 以太网标准是当前普适性最好的通信标准之一,中国移动以通用开放的宗旨联合产业链共同打造GSE网络,最大程度兼容现有以太网标准,兼容性主要体现在如下几方面: 遵循现有以太网PHY、MAC层协议:遵循现有IEEE802.3协议对以太网物理层、MAC层的定义,以兼容现有以太网器件(含光模块、网卡、交换机等),将GSE以功能增量的形式融入到现有以太网中,对以太网进行增强。 完整的以太网业务报文传输:在整个GSE网络中,以完整以太网报文形式 进行传输,最大程度保留以太网报文承载内容的完整性,以便后续在GSE 网络中兼容更多的特性,如在网计算。 遵循现有管控系统与运维习惯:管控系统、运维系统的构建与以太网转发技术一样复杂,且与转控平面的协同体系已成熟。GSE网络最大程度上沿用现有管控及运维系统,做到架构不变、运维习惯不变,保证现有以太网的管理手段和运维手段的兼容继承。 2.3.2无阻塞网络 随着网络规模的不断提升,报文交换从单网络节点内单跳到网络节点间多跳实现,各节点间也从松耦合关系变化为联合转发,业界通过CLOS架构搭建大规模分布式转发结构来满足日益增长的转发规模需求。该架构下,各节点分布式运行,自我决策转发路径,无法实现最优的整网性能。为使得大规模多节点转发效果和单节点一致,需要解决分布式转发结构内部的阻塞问题。 造成网络阻塞的核心原因是分布式转发结构中各节点无法完全感知全局信息,当一个网络节点发送给另一个网络节点时,无法感知下游节点网络情况,导致流量在下游产生拥塞。例如在基于ECMP进行负载均衡的网络中,网络节点仅站在自身视角将流量通过哈希选路发送,最终导致链路拥塞、出端口拥堵、交换网络利用率低等问题。DGSQ技术是解决这个问题的关键技术,该技术将互不可见的网络节点通过与交换网全局队列映射联合起来,最终达到整网最优的转发效果。 2.3.3提高有效带宽 基于DGSQ技术,可保证分布式交换网络入口节点发往交换网络的流量从出口节点看是最优的。但流量在网络中交换时,传统ECMP负载均衡会导致链路负载不均以及哈希极化,特别是在有巨型流存在的情况下,无论巨型流持续时间多长,所到之处均可能引起拥塞和丢包。当前交换网络缺乏有效的带宽控制和优先级管理,丢包将是无差别的,会给应用带来直接的负面影响。基于Packet的逐包负载分担技术,将任意流量转化成极短的数据单元传输,彻底消除哈希极化问题,进而提高交换网络的带宽利用率。 2.3.4优化长尾时延技术 AI大模型训练存在大量Map-Reduce流量模型,任意一轮计算的结束均依赖最后一个结果的返回,降低网络长尾时延可有效提升训练完成时间。交换网络整体转发时延和转发路径上中间节点的拥塞情况正相关,消除中间节点的拥塞就可消除长尾时延。DGSQ调度和高精度负载均衡技术融合是解决该问题的关键,一方面,通过DGSQ的PUSH+PULL结合机制控制进入交

你可能感兴趣

hot

中国移动6G网络架构技术白皮书

信息技术
中国移动研究院2022-06-21
hot

2024云原生AI技术架构白皮书

信息技术
华为&中国信通院2024-08-15