全调度以太网,构建新型智算中心网络底座 中国移动王瑞雪2023.10 04 总结与展望 01 中国移动NICC技术体系及关键技术 02 新型智算中心网络的演进趋势 03 中国移动智算中心网络技术创新与实践 新互联 新型智算中心 形成集约化建设的E级超大规模算力基础设施, 具备软硬件AI全栈环境,支撑AI大模型的高效训练和推理 新算效 新存储 新平台 新节能 以高性能GPU、AI加速卡为中心,以高速互联智算集群为目标, 强化互联技术、深化算力协同、定义新型存储、新增算力原生、升级绿色节能 智算运营 运营管理模块 算力原生 编排调度计量计费 跨架构编译器算力抽象运行时 算力交易用户界面 智算平台 ROCm CUDA CANN ... 裸金属实例 Hypervisor+ 虚拟机实例 平台 跨节点分布式训练调度 容器实例 智算运维 算效 互联 计算网络 存储 存储 运维管理模块 基础设施CPUGPUDPUCIMRoCE文件对象块内存池 开发管理 交付管理 高速互联计算总线 节能 GSE 融合存储 全局统一存储 IaaS管理模块 机房配套 液冷 高效供电 冷却水系统 虚机容器裸机 存储网络 AI开发框架 应用使能 TesnsorFlowPyTorchPaddlePaddleDeepSpeed... 布局攻关创新技术推动智算发展 新互联- 高速总线 互联计算 新互联- 全调GSE 度以太网 新存储-内存池 构建智算芯片快速互联标准 体系,提升卡间互联性能 无阻塞、高带宽、低时延构建统一内存池,实现一致网络,提升节点间的传输性内存语义和空间寻址 性能 新算效-DPU 新平台-算力原生 新节能-冷板式液冷 与计算、网络、存储深度 协同,助力算效提升。 “芯合”算力原生平台,使能 应用一次开发,跨架构迁移 聚焦液冷服务器和机柜的接 口标准,优化运维管理能力 04 总结与展望 01 中国移动NICC技术体系及关键技术 02 新型智算中心网络的演进趋势 03 中国移动智算中心网络技术创新与实践 •智算中心网络作为算力组成部分,用于连接CPU、GPU、内存等池化异构算力资源,贯穿数据计算、存储全流程,网络性能增强对提升智算中心整体算力水平具有关键意义 Bus 数据中心 AsIs–DataCenter 数据中心网络 Bus Bus 智算中心 ToBe–ClusterComputing CPUPool … MemoryPool … GPUPool … Bus 智算中心网络 服务器/VM 服务器/VM 服务器/VM StoragePool … 面向业务场景,以服务器/VM为池化对象,网络提供VM/服务器之间连接 面向任务场景,以算力资源为池化对象,网络提供CPU、GPU、存储之间高速连接 累积流量 单个流量 传统DC流量模型 单个流量:数量多、带宽小、异步 累积流量:抖动幅度较小,具有随机性 累积流量 GPU停工等待其他GPU完成工作 单个流量 智算中心(All-to-all)流量模型 单个流量:数量少、带宽大、同步 累积流量:波峰、波谷效应明显,具有周期性 大模型:数据并行+模型并行(Tensor并行+Pipeline并行),AI训练集群规模千卡->万卡 Pipelinestage0 DataParallelRank0Pipelinestage1 PipelinestageX 服务器间数据并行(网络同轨通信) 服务器内 并行(机内总线通信) Tensor GPU7GPU6GPU5GPU4GPU3GPU2GPU1GPU0 GPU7GPU6GPU5GPU4GPU3GPU2GPU1GPU0 GPU7GPU6GPU5GPU4GPU3GPU2GPU1GPU0 并行方式 特征 对通信的需求 Tensor并行(TP) 通信量巨大(百GB),通信时间不可掩盖 节点内allreduce 超高带宽 Pipeline并行(PP) 通信量较大(模型相关,百M-GB级)通信时间不可掩盖/流水可掩盖 跨节点P2P 中带宽 数据并行(DP) 通信量大(GB级)通信时间计算可大部分掩盖 跨节点allreduce 高带宽 MOE 通信量大通信时间不可掩盖 跨节点alltoall/allreduce 高带宽 一组服务器内Pipeline并行(网络同轨通信) Pipelinestage0 DataParallelRank1Pipelinestage1 PipelinestageX DataParallelRankY GPU7GPU6GPU5GPU4GPU3GPU2GPU1GPU0 GPU7GPU6GPU5GPU4GPU3GPU2GPU1GPU0 GPU7GPU6GPU5GPU4GPU3GPU2GPU1GPU0 大模型训练通信特点: 周期性,每轮迭代的通信模式一致 流数量少,单流带宽大,同步突发 每轮通信量大(GB~百GB级) •服务器内通信量为百GB级,以allreduce为主 •服务器间通信量为GB级,包括allreduce和p2p,大部分可以被计算掩盖 •MOE会引入节点间alltoall流量 AI大模型以GPU集群分布式训练为基础,集群节点间频繁地参数同步带来大量通信开销,超大集群不意味着超大算力,智算中心网络技术和设备能力成为提升GPU集群算力水平的关键 集群有效算力∝{GPU单卡算力*总卡数*线性加速比*有效运行时} 网络性能决定GPU集群算力加速比 网络设备能力决定GPU集群组网规模 网络可用性决定GPU集群稳定性 GPU集群性能≠单GPU性能*N 网络规模=K2/4(K=单台设备端口数量) 注:以H800(400G*8)服务器为例,51.2T可支持1024台服务器组网,12.8T仅支持64台服务器组网 2%的丢包就会使RDMA吞吐率下降为0 无损网络演进路线 高性能集群计算的网络需求:高带宽、低时延、无损 解决办法 RDMA 达成效果 带来问题 IB网络 解决办法 降低服务器侧时延 达成效果 成本高 高带宽成本降低 以太网(RoCE) 带来问题 解决办法 PFC 达成效果 无丢包 加重阻塞/丢包 带来问题 吞吐降低 解决办法 ECN 达成效果 PFC和ECN的技术原理并不复杂,工程实施的重点和难点主要在于缓存水线配置调优的复杂度很高,且水线设置对业务性能的影响大 带来问题 带宽/时延与无损不可兼得 调节发送端速率 ? 解决办法 10 04 总结与展望 目录 01 中国移动NICC技术体系及关键技术 02 新型智算中心网络的演进趋势 03 中国移动智算中心网络技术创新与实践 现有以太网协议基础转发和调度机制,在AI模型训练场景存在天然缺陷,单纯优化上层网络协议无法解决,需深入底层基础协议,对物理层、MAC层转发机制进行革新,并推动网络芯片底层逻辑架构支持,突破无损以太性能瓶颈 基于流转发,流数量少导致哈希失效,链路负载不均源端任意向网络推流,出现拥塞被动降速,GPU闲置等待 •问题:AI训练的流特征是流数量少但单流带宽大,传统流级负载均衡极易造 成多个流哈希到同一条链路,造成部分链路拥塞,部分空闲,网络利用率低, 无法应对突发的网络流量 有效通信带宽≠网卡/交换机组网物理带宽 •方向:对每条流的多个数据包逐个进行负载分担,实现单流在全路径“喷洒”,提升有效带宽,更好应对突发流量 •问题:传统以太网源端发流不关注网络情况及目的端接受能力,直接向网络“推”流,AI训练过程存在多打一流量,导致网络产生拥塞或丢包;通知源端降速或重传,导致GPUGPU空闲,算力损失 In-cast流量 任务同步产生“多打一”流量,拥塞导致时延、抖动增加 •方向:源端向目的端“请求”发送权限,基于网络转发能力的被动“拉”流, 最大概率消除拥塞概率,优化长尾时延12 中国移动提出全调度以太网(GSE)技术架构,最大限度兼容以太网生态,创新基于报文容器(PKTC)的转发及调度机制,构建无阻塞、高带宽、低时延的新型智算中心网络,形成标准开放的技术体系,助力AI产业发展 从“流”分发到“报文”分发 从盲发+被动控制到感知+主动控制 从“局部”决策到“全局”调度 创新以太网转发机制,实现三大核心机制转变 将业务流拆分到不同“报文容器”转发,提供逐“报文容器”负载均衡机制,提升带宽利用率 从被动拥塞控制,到基于“授权请求和响应机 制”的主动流控,最大限度避免网络拥塞产生 全局视野的转发调度机制,实现集中式管理运维、分布式控制转发,提高网络可用性 拥塞 Spine 目的leaf Spine Spine 丢 21 包 321 321 3 2 1 3 2 1 源leaf 3 2 1 3 2 1 3 2 1 321 当前:逐流负载,链路利用率低、发生拥塞被动降速未来:逐报文容器转发,链路负载均衡,全局调度,避免拥塞13 GSE协议可根据网络设备和网卡能力,将方案各组件功能在网络组件中重新分工,支持多种组网场景,为后续网络建设和设备选型提供灵活的方案选择 场景一:仅网侧运行GSE,网卡不感知 场景二:部分功能下沉网卡,实现端网协同 Spine Leaf Spine Leaf GSF… … GSP GSF GSF GSF GSP … … GSF GSP 网卡 网卡 网卡 网卡 网卡 网卡 计算卡计算卡 计算卡 计算卡计算卡 计算卡 网卡网卡网卡网卡 GSPGSPGSP 计算卡计算卡计算卡 计算卡 计算卡计算卡 •GSP和GSF角色均由网络设备担任,执行GSE头解封装、多路径分发、端到端授权应答及报文排序 •传统RoCE网卡,对网卡无额外要求 源GSP、GSF由网络设备担任,执行GSE头解封装、多路径分发等功能 网卡承担部分GSP角色,负责授权应答和报文排序 14 2023.5 2023.6 2023.8 2023.9 云网智联大会发布 《全调度以太网技术架构》白皮书 CCSA成功立项 《全调度以太网总体技术要求》 中国算力大会正式启动 全调度以太网(GSE)推进计划 中国网络大会发布业界首款GSE原型系统 技术标准 评估评测 创新试验 联合产业推动GSE方案成熟,形成开放统一的技术标准体系 联合仪表厂家开展合作,制定普适统一的网络功能、性能评估方法 依托中国移动CIFIT试验网,验证新型网络技术,推动技术成熟与规模建设 15 中国移动携手中国信通院,联合国内外三十余家主流互联网,设备商、芯片商、高校院所联合发起GSE推进计划,推动智算中心网络技术创新、标准完善和产业应用,打造高速无损、开放兼容的新型智算中心网络技术体系 成员情况: 全调度以太网(GSE)推进计划研究范畴: •物理层:低时延Phy、PhySEC、故障快速检测、B400G高速光接口、光交换等 •链路层:基于报文分发和重组机制、调度技术、链路级安全及容错等 •网络层:新型组网拓扑、新型组播/任播协议等; •传输层:改进的RDMA、新型拥塞控制等 •应用层:在网计算、存储加速、开放API框架等 •管理和运维体系:网络可视化、可调试能力、多维自动化能力 中国移动,中国信息通信研究院,华为、中兴、锐捷、新华三、浪潮信息、Broadcom、Intel、清华大学、上海交通大学、鹏城实验室、紫金山实验室、北京邮电大学、中科院计算机网络信息中心、中信科、迈普、Spirent、是德科技、盛科、云合智网、楠菲微电子、燧原科技、昆仑芯、星云智联、云脉芯联、中科驭数、云豹智能、大禹智芯、中盈优创等 16 分布式系统节点间以多对多的集合通信为主,业界主流方案基于RDMA点到点高效传输,实现多对多集合通信,存在性能瓶颈 多播业务效率问题 •引入了与通信规模线性相关的额外开销,且无法通过优化下层网络的延迟/吞吐性能来消除 扩展性问题 •有测试表明,RDMA商用网卡在QP数量超过256时,吞吐即会出现明显的下降 WangZ,LuoL,NingQ,etal.SRNIC:AScalable