您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[开放数据中心委员会]:中国移动智算中心网络技术实践与思考 - 发现报告
当前位置:首页/其他报告/报告详情/

中国移动智算中心网络技术实践与思考

2023-09-14王瑞雪开放数据中心委员会L***
中国移动智算中心网络技术实践与思考

中国移动智算中心网络技术实践与思考 姓名:王瑞雪中国移动 目录 一、中国移动NICC技术体系二、智算中心网络面临的挑战 三、智算中心网络创新实践四、总结与展望 智算中心背景与需求 AIGC(AI-GeneratedContent,人工智能生产内容)发展迅猛,迭代速度呈现指数级增长,全球范围内经济价值预计将达到数万亿美元,智能算力将成为未来主流算力 国内市场规模 2000亿元(2025年) 大模型参数量 千亿、万亿级 GPU算力规模 10000+卡 新型智算中心— 以高性能GPU、AI加速卡为中心,以高速互联智算集群为目标,形成集约化建设的E级超大规模算力基础设施,具备软硬件AI全栈环境,支撑AI大模型的高效训练和推理 NICC新型智算中心技术体系 中国移动NICC技术体系从新互联、新算效、新存储、新平台、新节能等五大方面进行系统性重构,加快发展智能算力,构建标准统一、技术领先、软硬协同、兼容开放的新型智算中心技术体系 AI开发框架 应用使能 TesnsorFlow PyTorch PaddlePaddle DeepSpeed... 算力原生 跨架构编译器 算力抽象运行时 智算平台 ROCm CUDA CANN ... 裸金属实例 Hypervisor+ 虚拟机实例 容器实例 算效 存储 计算 互联 网络 存储 基础设施 GPU DPU RoCE GSE 文件对象块内存池 AIDSA高速互联计算总线融合存储全局统一存储 节能 机房配套 液冷 高效供电 冷却水系统 智算运营 NICC新型智算中心技术体系 布局攻关创新技术推动智算发展 新算效-DPU 新平台-算力原生 新节能-冷板式液冷 与计算、网络、存储深 度协同,助力算效提升。 “芯合”算力原生平台, 使能应用一次开发,跨架构迁移 聚焦液冷服务器和机柜 的接口标准,优化运维管理能力 智算运维 平台 新互联- 高速互联计算总线 新互联- 全调度以太网GSE 新存储-内存池 构建智算芯片快速互联 标准体系,提升卡间互联性能 无阻塞、高带宽、低时 延网络,提升节点间的传输性能 构建统一内存池,实现 一致性内存语义和空间寻址 AI参数面通信特征 大模型的参数量呈指数增长态势,“大模型”正走向“超大模型”, 基于数据并行、模型并行的分布式训练成为处理超大模型和超大数据集的有效手段 服务器内 一组服务器内Pipeline并行(网络同轨通信) Pipelinestage0 DataParallelRank0Pipelinestage1 PipelinestageX Tensor GPU7GPU6GPU5GPU4GPU3GPU2GPU1GPU0 GPU7GPU6GPU5GPU4GPU3GPU2GPU1GPU0 GPU7GPU6GPU5GPU4GPU3GPU2GPU1GPU0 大模型训练通信特点: 服务器间数据并行(网络同轨通信) 并行(机内总线通信) 周期性,每轮迭代的通信模式一致 流数量少,单流带宽大,同步突发 每轮通信量大(GB~百GB级) Pipelinestage0 DataParallelRank1Pipelinestage1 PipelinestageX GPU7GPU6GPU5GPU4GPU3GPU2GPU1GPU0 GPU7GPU6GPU5GPU4GPU3GPU2GPU1GPU0 GPU7GPU6GPU5GPU4GPU3GPU2GPU1GPU0 •服务器内通信量为百GB级,以allreduce为主 •服务器间通信量为GB级,包括allreduce和p2p,大部分可以被计算掩盖 •MOE会引入节点间alltoall流量 DataParallelRankY 网络是提升AI大模型训练效率的关键 大模型以GPU集群分布式训练为基础,集群节点间频繁地参数同步带来大量通信开销,网络性能成为提升GPU集群算力水平的关键 集群有效算力∝{GPU单卡算力*总卡数*线性加速比*有效运行时} 网络性能决定GPU集群算力加速比 芯片能力决定GPU集群组网规模 网络可用性决定GPU集群稳定性 在大模型训练任务场景,并行系统节点数越多,机间通信占比越高,网络性能成为获得线性加速比的关键 网络芯片能力一定程度决定智算中心网络规模和性能,单芯片容量越大,组网规模越大且成本越低 作为集群共享资源,相比单点GPU故障或性能波动,网络故障影响域大,网络性能波动影响范围广 GPU集群性能≠单GPU性能*N 以256台H800服务器,每服务器出8个400G网卡为例 12.8T芯片 端口数量 交换机数量 Leaf 32*400G 128 Spine 32*400G 128 Core 32*400G 64 51.2T芯片 端口数量 交换机数量 Leaf 128*400G 32 Spine 128*400G 16 H800(400G*8)服务器,51.2T可支持1024台服务器组网,12.8T仅支持64台服务器组网 AI业务对丢包敏感,2%的丢包就会使RDMA吞吐率下降为0 传统无损以太技术存在性能瓶颈,需从底层机制革新 如何提升网络可靠性和有效带宽,降低时延抖动是提升模型训练效率的关键 基于流转发,流数量少导致哈希失效,链路负载不均源端任意向网络推流,出现拥塞被动降速,GPU闲置等待 •问题:AI训练的流特征是流数量少但单流带宽大,传统流级负载均 衡极易造成多个流哈希到同一条链路,造成部分链路拥塞,部分空闲,网络利用率低,无法应对突发的网络流量 有效通信带宽≠网卡/交换机组网物理带宽 •方向:对每条流的多个数据包逐个进行负载分担,实现单流在全路径“喷洒”,提升有效带宽,更好应对突发流量 •问题:传统以太网源端发流不关注网络情况及目的端接受能力,直接向 网络“推”流,AI训练过程存在多打一流量,导致网络产生拥塞或丢包;通知源端降速或重传,导致GPU空闲,算力损失 In-cast 流量 任务同步产生“多打一”流量,拥塞导致时延、抖动增加 •方向:源端向目的端“请求”发送权限,基于网络转发能力的被动“拉”流,最大概率消除拥塞概率,优化长尾时延 现有以太网协议基础转发和调度机制,在AI模型训练场景存在天然缺陷,单纯优化上层网络协议无法解决,需深入底层基础协议,对物理层、MAC层转发机制进行革新,突破无损以太性能瓶颈 全调度以太网(GSE)技术特征 联合产业发布全调度以太网(GSE)技术架构,最大限度兼容以太网生态,创新基于报文容器(PKTC)的转发及调度机制,构建无阻塞、高带宽、低时延的新型智算中心网络,形成标准开放的技术体系,助力AI产业发展 创新以太网转发机制,实现三大核心机制转变 从“流”分发到“报文”分发 从盲发+被动控制到感知+主动控制 从“局部”决策到“全局”调度 拥塞 321 Leaf Spine Leaf 321 Spine 321 Spine 1 32 321 321 321 321 将业务流拆分到不同“报文容器”转发,提供逐“报文容器”负载均衡机制,提升带宽利用率 从被动拥塞控制,到基于“授权请求和响应机制”的主动流控,最大限度避免网络拥塞产生 全局视野的转发调度机制,实现集中式管理运维、分布式控制转发,提高网络可用性 丢包 21 当前:逐流负载,链路利用率低、发生拥塞被动降速未来:逐报文容器转发,链路负载均衡,全局调度,避免拥塞 全调度以太网(GSE)组网场景 场景一:仅网侧运行GSE,网卡不感知 场景二:部分功能下沉网卡,实现端网协同 GSE协议可根据网络设备和网卡能力,将方案各组件功能在网络组件中重新分工,支持多种组网场景,为后续网络建设和设备选型提供灵活的选择方案 GSF … GSF GSP … GSP 网卡 网卡 网卡 网卡 网卡 网卡 计算卡计算卡 计算卡 计算卡计算卡 计算卡 Spine GSF … GSF Leaf GSP … GSF 网卡 网卡 网卡 网卡 GSP GSP GSP 计算卡计算卡 计算卡 计算卡计算卡 计算卡 Spine Leaf •GSP和GSF角色均由网络设备担任,执行GSE头解封装、容器生成、多路径分发、端到端授权应答及报文排序 •传统RoCE网卡,对网卡无额外要求 源GSP、GSF由网络设备担任,执行GSE头解封装、容器生成、多路径分发等功能 网卡承担部分GSP角色,负责授权应答和报文排序 全调度以太网(GSE)推进进展 2023.5 2023.6 2023.8 2023.9 联合产业发布《全调度以太网(GSE)技术架构》白皮书 CCSA立项《全调度以太网总体技术要求》 中国算力大会正式启动全调度以太网 (GSE)推进计划 中国网络大会发布业界首款GSE原型系统 技术标准 评估评测 创新试验 联合产业推动GSE方案成熟,形成开放统一的技术标准体系 联合仪表厂家开展合作,制定普适统一的网络功能、性能评估方法 依托中国移动CIFIT试验网,验证新型网络技术,推动技术成熟与规模建设 全调度以太网(GSE)推进计划 中国移动携手中国信通院,联合国内外三十余家主流互联网,设备商、芯片商、高校院所联合发起GSE推进计划,推动智算中心网络技术创新、标准完善和产业应用,打造高速无损、开放兼容的新型智算中心网络技术体系 成员情况: 全调度以太网(GSE)推进计划研究范畴: •物理层:低时延Phy、PhySEC、故障快速检测、B400G高速光接口、光交换等 •链路层:基于报文分发和重组机制、调度技术、链路级安全及容错等 •网络层:新型组网拓扑、新型组播/任播协议等; •传输层:改进的RDMA、新型拥塞控制等 •应用层:在网计算、存储加速、开放API框架等 •管理和运维体系:网络可视化、可调试能力、多维自动化能力 中国移动,中国信息通信研究院,华为、中兴、锐捷、新华三、浪潮、Intel、Broadcom、清华大学、上海交通大学、鹏城实验室、紫金山实验室、北京邮电大学、中科院计算机网络信息中心、中信科、Spirent、是德科技、盛科、云合智网、楠菲微电子、燧原科技、昆仑芯、迈普,星云智联、云脉芯联、中科驭数、云豹智能、大禹智芯、中盈优创等 期待更多产学研合作伙伴加入GSE推进计划,携手共建新型智算中心网络产业生态! 业务通信原语与网络通信模型存在差异 Scatter 0.2% AllReduce 19.4% Bcast 14% Allgather 0.6% 14.8% point-to-point 34% Barrier 13.2% 39.4% 6% Gather1.2% AlltoAll 6.8% Reduce 4.6% Reduce-Scatter 0.2% 分布式系统节点间以多对多的集合通信为主,业界主流方案基于RDMA点到点高效传输,实现多对多集合通信,存在性能瓶颈 N 1 1N 超算系统通信原语调用统计 AI大模型中典型通信原语调用 当前组播实现方式 多播业务效率问题 •引入了与通信规模线性相关的额外开销,且无法通过优化下层网络的延迟/吞吐性能来消除 扩展性问题 •有测试表明,RDMA商用网卡在QP数量超过256时,吞吐即会出现明显的下降 WangZ,LuoL,NingQ,etal.SRNIC:AScalableArchitectureforRDMANICs[J] NDMA面向集合通信的原生设计,最优化集合通信性能 网络级DMA(NDMA)对网络中一组节点内存直读/写,是面向集合通信的原生传输框架,通过端网协同,将业务逻辑下沉,结合网络多播能力,实现组播、任播和聚播的高效传输 新QPType:MCOp:SendOnly 新QPType:MCOp:SendOnly 交换机复制报文 ASISTOBE 进交换机前 交换机无处理QPType:RCOp:SendOnly 出交换机后 新QPType:CCOp:Acknowledge 聚播 新QPType:CCOp:Acknowledge 交换机汇聚AC

你可能感兴趣

hot

分布式智算中心无损网络技术白皮书

信息技术
中国电信2024-08-26
hot

大规模智算中心网络技术白皮书

信息技术
开放数据中心委员会2023-10-09
hot

秦凤伟:AIGC时代智算中心网络协议演进与思考

信息技术
中国移动研究院2023-11-15