热门搜索：

王瑞雪：全调度以太网，构建新型智算中心网络底座

信息技术2023-10-23中国移动研究院静***

AI智能总结

报告总结

本报告聚焦于中国移动在新型智算中心网络领域的技术创新与实践，特别是全调度以太网（GSE）技术的开发与应用，以及其对智算中心网络的演进趋势的影响。

技术体系及关键技术

全调度以太网（GSE）：报告详细介绍了GSE技术的核心机制和部署场景，旨在解决传统以太网在AI模型训练场景下的性能瓶颈。通过创新的报文容器转发及调度机制，GSE实现了无阻塞、高带宽、低时延的特性，显著提高了网络的可用性和效率。
演进趋势：报告指出，新型智算中心网络正朝着支持更高效的大模型训练和推理的方向发展，强调了对新互联、新算效、新存储、新平台和新节能技术的需求。

主要挑战与解决方案

链路负载均衡与拥塞控制：报告分析了当前智算中心网络面临的挑战，如链路负载不均和被动拥塞控制机制，提出了通过全调度以太网实现的解决方案，包括从“流”分发到“报文”分发的转变，以及从被动控制到基于授权请求和响应机制的主动控制策略。

技术创新与实践

NDMA技术：报告介绍了针对集合通信的原生传输框架NDMA技术，通过端网协同支持组播、任播和聚播模式，显著提升了存储场景的IOPS性能。

总结与展望

报告总结了新型智算中心网络的关键技术进步和应用实践，强调了全调度以太网对于提升智算中心网络性能的重要性。同时，提出了以全调度以太网为核心，通过多层技术攻关和标准生态建设，推动智算中心网络技术体系成熟的目标，并呼吁更多产业伙伴参与GSE推进计划，共同促进技术发展与应用。

结论

本报告通过详细的分析与实例验证，展示了中国移动在智算中心网络领域所取得的技术创新和实际应用成果，特别是在全调度以太网和NDMA技术方面的突破，为推动人工智能技术的发展提供了有力的支持。通过持续的技术研发与合作，预计将进一步提升智算中心的效能与效率，促进人工智能产业的繁荣。

全调度以太网，构建新型智算中心网络底座中国移动王瑞雪2023.10 04 总结与展望 01 中国移动NICC技术体系及关键技术 02 新型智算中心网络的演进趋势 03 中国移动智算中心网络技术创新与实践新互联新型智算中心形成集约化建设的E级超大规模算力基础设施，具备软硬件AI全栈环境，支撑AI大模型的高效训练和推理新算效新存储新平台新节能以高性能GPU、AI加速卡为中心，以高速互联智算集群为目标，强化互联技术、深化算力协同、定义新型存储、新增算力原生、升级绿色节能智算运营运营管理模块算力原生编排调度计量计费跨架构编译器算力抽象运行时算力交易用户界面智算平台 ROCm CUDA CANN ... 裸金属实例 Hypervisor+ 虚拟机实例平台跨节点分布式训练调度容器实例智算运维算效互联计算网络存储存储运维管理模块基础设施CPUGPUDPUCIMRoCE文件对象块内存池开发管理交付管理高速互联计算总线节能 GSE 融合存储全局统一存储 IaaS管理模块机房配套液冷高效供电冷却水系统虚机容器裸机存储网络 AI开发框架应用使能 TesnsorFlowPyTorchPaddlePaddleDeepSpeed... 布局攻关创新技术推动智算发展新互联- 高速总线互联计算新互联- 全调GSE 度以太网新存储-内存池构建智算芯片快速互联标准体系，提升卡间互联性能无阻塞、高带宽、低时延构建统一内存池，实现一致网络，提升节点间的传输性内存语义和空间寻址性能新算效-DPU 新平台-算力原生新节能-冷板式液冷与计算、网络、存储深度协同，助力算效提升。 “芯合”算力原生平台，使能应用一次开发，跨架构迁移聚焦液冷服务器和机柜的接口标准，优化运维管理能力 04 总结与展望 01 中国移动NICC技术体系及关键技术 02 新型智算中心网络的演进趋势 03 中国移动智算中心网络技术创新与实践 •智算中心网络作为算力组成部分，用于连接CPU、GPU、内存等池化异构算力资源，贯穿数据计算、存储全流程，网络性能增强对提升智算中心整体算力水平具有关键意义 Bus 数据中心 AsIs–DataCenter 数据中心网络 Bus Bus 智算中心 ToBe–ClusterComputing CPUPool … MemoryPool … GPUPool … Bus 智算中心网络服务器/VM 服务器/VM 服务器/VM StoragePool … 面向业务场景，以服务器/VM为池化对象，网络提供VM/服务器之间连接面向任务场景，以算力资源为池化对象，网络提供CPU、GPU、存储之间高速连接累积流量单个流量传统DC流量模型单个流量：数量多、带宽小、异步累积流量：抖动幅度较小，具有随机性累积流量 GPU停工等待其他GPU完成工作单个流量智算中心（All-to-all）流量模型单个流量：数量少、带宽大、同步累积流量：波峰、波谷效应明显，具有周期性大模型：数据并行+模型并行（Tensor并行+Pipeline并行），AI训练集群规模千卡->万卡 Pipelinestage0 DataParallelRank0Pipelinestage1 PipelinestageX 服务器间数据并行（网络同轨通信）服务器内并行（机内总线通信） Tensor GPU7GPU6GPU5GPU4GPU3GPU2GPU1GPU0 GPU7GPU6GPU5GPU4GPU3GPU2GPU1GPU0 GPU7GPU6GPU5GPU4GPU3GPU2GPU1GPU0 并行方式特征对通信的需求 Tensor并行(TP) 通信量巨大（百GB），通信时间不可掩盖节点内allreduce 超高带宽 Pipeline并行(PP) 通信量较大（模型相关，百M-GB级）通信时间不可掩盖/流水可掩盖跨节点P2P 中带宽数据并行(DP) 通信量大（GB级）通信时间计算可大部分掩盖跨节点allreduce 高带宽 MOE 通信量大通信时间不可掩盖跨节点alltoall/allreduce 高带宽一组服务器内Pipeline并行（网络同轨通信） Pipelinestage0 DataParallelRank1Pipelinestage1 PipelinestageX DataParallelRankY GPU7GPU6GPU5GPU4GPU3GPU2GPU1GPU0 GPU7GPU6GPU5GPU4GPU3GPU2GPU1GPU0 GPU7GPU6GPU5GPU4GPU3GPU2GPU1GPU0 大模型训练通信特点： 周期性，每轮迭代的通信模式一致 流数量少，单流带宽大，同步突发 每轮通信量大(GB~百GB级) •服务器内通信量为百GB级，以allreduce为主 •服务器间通信量为GB级，包括allreduce和p2p，大部分可以被计算掩盖 •MOE会引入节点间alltoall流量 AI大模型以GPU集群分布式训练为基础，集群节点间频繁地参数同步带来大量通信开销，超大集群不意味着超大算力，智算中心网络技术和设备能力成为提升GPU集群算力水平的关键集群有效算力∝｛GPU单卡算力*总卡数*线性加速比*有效运行时｝网络性能决定GPU集群算力加速比网络设备能力决定GPU集群组网规模网络可用性决定GPU集群稳定性 GPU集群性能≠单GPU性能*N 网络规模=K2/4（K=单台设备端口数量）注：以H800(400G*8)服务器为例，51.2T可支持1024台服务器组网，12.8T仅支持64台服务器组网 2%的丢包就会使RDMA吞吐率下降为0 无损网络演进路线高性能集群计算的网络需求：高带宽、低时延、无损解决办法 RDMA 达成效果带来问题 IB网络解决办法降低服务器侧时延达成效果成本高高带宽成本降低以太网(RoCE) 带来问题解决办法 PFC 达成效果无丢包加重阻塞/丢包带来问题吞吐降低解决办法 ECN 达成效果 PFC和ECN的技术原理并不复杂，工程实施的重点和难点主要在于缓存水线配置调优的复杂度很高，且水线设置对业务性能的影响大带来问题带宽/时延与无损不可兼得调节发送端速率？解决办法 10 04 总结与展望目录 01 中国移动NICC技术体系及关键技术 02 新型智算中心网络的演进趋势 03 中国移动智算中心网络技术创新与实践现有以太网协议基础转发和调度机制，在AI模型训练场景存在天然缺陷，单纯优化上层网络协议无法解决，需深入底层基础协议，对物理层、MAC层转发机制进行革新，并推动网络芯片底层逻辑架构支持，突破无损以太性能瓶颈基于流转发，流数量少导致哈希失效，链路负载不均源端任意向网络推流，出现拥塞被动降速，GPU闲置等待 •问题：AI训练的流特征是流数量少但单流带宽大，传统流级负载均衡极易造成多个流哈希到同一条链路，造成部分链路拥塞，部分空闲，网络利用率低，无法应对突发的网络流量有效通信带宽≠网卡/交换机组网物理带宽 •方向：对每条流的多个数据包逐个进行负载分担，实现单流在全路径“喷洒”，提升有效带宽，更好应对突发流量 •问题：传统以太网源端发流不关注网络情况及目的端接受能力，直接向网络“推”流，AI训练过程存在多打一流量，导致网络产生拥塞或丢包；通知源端降速或重传，导致GPUGPU空闲，算力损失 In-cast流量任务同步产生“多打一”流量，拥塞导致时延、抖动增加 •方向：源端向目的端“请求”发送权限，基于网络转发能力的被动“拉”流，最大概率消除拥塞概率，优化长尾时延12 中国移动提出全调度以太网（GSE）技术架构，最大限度兼容以太网生态，创新基于报文容器（PKTC）的转发及调度机制，构建无阻塞、高带宽、低时延的新型智算中心网络，形成标准开放的技术体系，助力AI产业发展从“流”分发到“报文”分发从盲发+被动控制到感知+主动控制从“局部”决策到“全局”调度创新以太网转发机制，实现三大核心机制转变将业务流拆分到不同“报文容器”转发，提供逐“报文容器”负载均衡机制，提升带宽利用率从被动拥塞控制，到基于“授权请求和响应机制”的主动流控，最大限度避免网络拥塞产生全局视野的转发调度机制，实现集中式管理运维、分布式控制转发，提高网络可用性拥塞 Spine 目的leaf Spine Spine 丢 21 包 321 321 3 2 1 3 2 1 源leaf 3 2 1 3 2 1 3 2 1 321 当前：逐流负载，链路利用率低、发生拥塞被动降速未来：逐报文容器转发，链路负载均衡，全局调度，避免拥塞13 GSE协议可根据网络设备和网卡能力，将方案各组件功能在网络组件中重新分工，支持多种组网场景，为后续网络建设和设备选型提供灵活的方案选择场景一：仅网侧运行GSE，网卡不感知场景二：部分功能下沉网卡，实现端网协同 Spine Leaf Spine Leaf GSF… … GSP GSF GSF GSF GSP … … GSF GSP 网卡网卡网卡网卡网卡网卡计算卡计算卡计算卡计算卡计算卡计算卡网卡网卡网卡网卡 GSPGSPGSP 计算卡计算卡计算卡计算卡计算卡计算卡 •GSP和GSF角色均由网络设备担任，执行GSE头解封装、多路径分发、端到端授权应答及报文排序 •传统RoCE网卡，对网卡无额外要求 源GSP、GSF由网络设备担任，执行GSE头解封装、多路径分发等功能 网卡承担部分GSP角色，负责授权应答和报文排序 14 2023.5 2023.6 2023.8 2023.9 云网智联大会发布《全调度以太网技术架构》白皮书 CCSA成功立项《全调度以太网总体技术要求》中国算力大会正式启动全调度以太网（GSE）推进计划中国网络大会发布业界首款GSE原型系统技术标准评估评测创新试验联合产业推动GSE方案成熟，形成开放统一的技术标准体系联合仪表厂家开展合作，制定普适统一的网络功能、性能评估方法依托中国移动CIFIT试验网，验证新型网络技术，推动技术成熟与规模建设 15 中国移动携手中国信通院，联合国内外三十余家主流互联网，设备商、芯片商、高校院所联合发起GSE推进计划，推动智算中心网络技术创新、标准完善和产业应用，打造高速无损、开放兼容的新型智算中心网络技术体系 成员情况： 全调度以太网（GSE）推进计划研究范畴： •物理层：低时延Phy、PhySEC、故障快速检测、B400G高速光接口、光交换等 •链路层：基于报文分发和重组机制、调度技术、链路级安全及容错等 •网络层：新型组网拓扑、新型组播/任播协议等; •传输层：改进的RDMA、新型拥塞控制等 •应用层：在网计算、存储加速、开放API框架等 •管理和运维体系：网络可视化、可调试能力、多维自动化能力中国移动，中国信息通信研究院，华为、中兴、锐捷、新华三、浪潮信息、Broadcom、Intel、清华大学、上海交通大学、鹏城实验室、紫金山实验室、北京邮电大学、中科院计算机网络信息中心、中信科、迈普、Spirent、是德科技、盛科、云合智网、楠菲微电子、燧原科技、昆仑芯、星云智联、云脉芯联、中科驭数、云豹智能、大禹智芯、中盈优创等 16 分布式系统节点间以多对多的集合通信为主，业界主流方案基于RDMA点到点高效传输，实现多对多集合通信，存在性能瓶颈多播业务效率问题 •引入了与通信规模线性相关的额外开销，且无法通过优化下层网络的延迟/吞吐性能来消除扩展性问题 •有测试表明，RDMA商用网卡在QP数量超过256时，吞吐即会出现明显的下降 WangZ,LuoL,NingQ,etal.SRNIC:AScalable

点击免费查看完整报告