大模型时代,智算网络性能评测挑战 中国移动研究院2024.03 目录 01 智算中心网络技术概况 02 全调度以太网技术创新 03 智算网络技术评测面临的挑战 2 智算中心是以GPU芯片为核心的计算基础设施和以高速以太网交换芯片为核心的网络基础设施的综合体,智能算力需求激增推动计算与网络基础设施建设不断布局 算和网是新型智算中心关键基础设施 中国移动NICC技术架构 算和网基础设施倍受关注 算力原生 跨架构编译器 算力抽象运行时 智算平台 ROCm CUDA CANN ... 裸金属实例 Hypervisor+ 虚拟机实例 容器实例 计算 网络 存储 基础设施 CPU GPU 交换机DPU 融合存储内存池 高速互联计算总线 高速以太网 全局统一存储 应用使能 TesnsorFlow AI开发框架 PyTorchPaddlePaddle DeepSpeed ... 机房配套 液冷 高效供电 冷却水系统 随着算力需求的快速增长,AI基础设施建设不断布局, 算与网成为AI算力重要基础设施的两大核心 AI基础设施 GPU芯片为核心的算力基础 •算力需求激增,GPU是重中之重 •AI芯片市场规模不断扩大,较2022年,2026年AI芯片规模提升4倍 •GPU技术快速发展,Nvidia即将推出H200, H200的算力是H100的2倍左右 以太网交换芯片为核心的网络基础 •GPU市场规模提升,对网络设备需求 激增,交换芯片的更新换代周期缩短 至1.5年 来源:Frost&Sullivan,中商产业研究院... 来源:中商产业研究院,安信证券研究中心 注:NewIntelligentComputingCenter(NICC),新型智算中心3 网络成为AI算力瓶颈,以网强算对我国更加重要 AI大模型以算力集群分布式训练为基础,带来大量节点间通信消耗,组网规模、网络性能和可靠性决定集群有效算力,网络成为AI算力“瓶颈”,以网强算成为提升大模型训练效率的关键 集群有效算力∝{GPU单卡算力*总卡数*线性加速比*有效运行时} 网络芯片容量决定GPU集群组网规模 网络芯片性能决定GPU集群算力加速比 网络可靠性决定GPU集群有效运行时间 芯片容量提升2倍,组网规模提高4倍 GPU集群性能≠单GPU性能*N 2%的丢包就会使RDMA吞吐率下降为0 4 智算中心网络概况 智算中心网络用于连接CPU、GPU、内存等池化异构算力资源,贯穿数据计算、存储全流程,网络性能增强对提升智算中心整体算力水平具有关键意义;与通用云计算网络不同,AI参数面网络要求极高,是业界关注焦点 通算中心 智算中心 ToBe–ClusterComputing IPMIIPMI 业务面 … 管理面 … 存储面 … IPMIIPMI IPMI IPMI 数据中心网络 业务面 AsIs–DataCenter … 管理面 IPMI IPMI … 参数面 … 存储面 … 智算中心网络 面向业务场景,以服务器/VM为池化对象网络提供VM/服务器之间连接 数据面 … 面向任务场景,以算力资源为池化对象 网络提供CPU、GPU、存储之间高速连接5 AI训练依赖典型集合通信原语 ALLReduce:在主节点上进行Reduce(如sum、min)操作,通过Garther分发给所有节点,所有节点得到相同数据, Allreduce:可以通过算法转化为对分通信 1+2 1+2 3+4 3+4 log2� 1+2 1+2 1+2 1+2 +3+ +3+ +3+ +3+ 4 4 4 4 一个典型的32卡HDallreduce过程: Step1-3:通过总线完成机内8卡通信 Step4-5:通过网络完成4台服务器之间的通信 0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7 HDallreduce Ringallreduce 1 2 3 4 1 2 step1 step2 4 3 通信数据量Double,无多打一 Ringallreduce 特征: 点到点通信,对分流量,无多打一 网络同轨通信6 通用算力以CPU芯片为主,业务种类多流量小,业务间相互独立;智能算力以GPU、Al芯片等人工智能芯片为主,通信关系固定,流数量少流量大,分布式训练带来大量节点的同步突发,木桶效应明显 通算中心与智算中心流量模型差异性 通算中心流量模型智算中心大模型(All-to-all)流量模型 累积流量 单个流量 累积流量 GPU停工等待其他GPU完成工作 单个流量 •单个流量:数量多、带宽小、突发异步 •累积流量:抖动幅度较小,具有随机性 •单个流量:数量少、带宽大、突发同步 •累积流量:波峰、波谷效应明显,具有周期性 7 通算中心与智算中心网络差异性 业界主流通算中心与智算中心均采用spine-leaf架构,但两者端口速率、组网方式、网络协议均存在差异性 Spine交换机 Leaf交换机 服务器 通算中心组网方案 智算中心组网方案 •端口速率方面:服务器端口10GE/25GE并存,汇聚层从40GE向100GE演进 •服务器网卡数量:一机双卡 •设备关系:交换机设备之间部署MC-LAG •组网形态:Leaf为盒式设备,Spine多为框式设备 •端口速率方面:服务器端口200GE/400GE,汇聚层400GE/800GE •服务器网卡数量:一机八卡 •设备关系:交换机设备之间独立 •组网形态:Leaf为盒式设备,Spine多为盒式设备 8 目录 01 智算中心网络技术概况 02 全调度以太网技术创新 03 智算网络技术评测面临的挑战 9 当前智算中心网络技术问题和挑战 现有以太网协议基于流的负载分担及拥塞控制机制,在AI模型训练场景存在天然缺陷,导致网络有效带宽和时延受限 问题一:基于流的负载均衡存在哈希极化问题问题二:被动拥塞控制导致GPU闲置 •问题:传统流级负载均衡极易造成多个流哈希到同一条链路,造成部分链路 拥塞,部分空闲,网络利用率低,无法应对突发的网络流量 60 switch 100 switch 60 100 60 有效通信带宽≠网卡/交换机组网物理带宽 •问题:传统以太网源端发流不关注网络情况及目的端接受能力,直接向网络“推”流, 产生多打一流量,导致网络产生拥塞或丢包,导致GPU空闲,算力损失 In-cast流量 任务同步产生“多打一”流量,拥塞导致时延、抖动增加 InfiniBand和RoCE存在各自问题,基于新型以太网构建开放、标准的生态,成为智算中心网络技术演进方向10 GSE链路层三大核心技术 GSE创新以太网转发机制,基于三大核心机制转变,实现高精度负载均衡、网络层原生无损及低延迟 从“流”分发到“报文”分发 从盲发+被动控制到感知+主动控制 从“局部”决策到“全局”调度 将业务流拆分到不同“报文容器”转发,提供逐“报文容器”负载均衡机制,提升带宽利用率 从被动拥塞控制,到基于“授权请求和响应机 制”的主动流控,最大限度避免网络拥塞产生 基于算网协同的全局视野转发调度机制,实现集中式管理运维、分布式控制转发 拥塞 Spine 目的leaf Spine Spine 丢 21 包 321 321 3 2 1 3 2 1 源leaf 3 2 1 3 2 1 3 2 1 321 当前:逐流负载,链路利用率低、发生拥塞被动降速未来:逐报文容器转发,链路负载均衡,全局调度,避免拥塞 11 GSE技术体系最大限度兼容以太网生态,从四层(物理层、链路层、网络层、传输层)+一体(管理和运维体系)等层级优化和增强,GSE体系架构最大限度兼容以太网生态,创新基于报文容器(PKTC)的转发及调度机制,构建无阻塞、高带宽、低时延的新型智算中心网络,形成标准开放的技术体系,助力AI产业发展 网络可视化 变更自动化 运维自动化 测试验收自动化 部署自动化 管理与运维体系 全调度以太网(GSE)技术体系框架 传输层 高可扩展的传输队列/连接管理 新型传输服务 高效可靠性机制 拥塞/流量控制 乱序重排 选择性重传 灵活报文/事务交付序设计 拥塞算法 拥塞检测 拥塞通告 网络层 新型组网拓扑 新型组播/任播协议 新型负载均衡机制 链路层 报文分发和重组机制 调度机制 链路级安全及容错机制 物理层 高速光接口 光交换 低延迟FEC PhySec 故障快速检测 12 全调度以太网(GSE)部署场景 GSE协议可根据网络设备和网卡能力,将方案各组件功能在网络组件中重新分工,支持多种组网场景,为后续网络建设和设备选型提供灵活的方案选择 场景一:仅网侧运行GSE,网卡不感知 场景二:部分功能下沉网卡,实现端网协同 Spine Leaf Spine Leaf GSF… … GSP GSF GSF GSF GSP … … GSF GSP 网卡 网卡 网卡 网卡 网卡 网卡 计算卡计算卡 计算卡 计算卡计算卡 计算卡 网卡网卡网卡网卡 GSPGSPGSP 计算卡计算卡计算卡 计算卡 计算卡计算卡 •GSP和GSF角色均由网络设备担任,执行GSE头解封装、多路径分发、端到端授权应答及报文排序 •传统RoCE网卡,对网卡无额外要求 •适用于华为昇腾GPU生态系统 •源GSP、GSF由网络设备担任,执行、多路径分发等功能 •网卡承担部分GSP角色,负责GSE头解封装、授权应答和报文排序 •适用于英伟达及其他国产GPU生态系统 13 采用逐包分发技术后,对leaf上行带宽需求降低,同等芯片容量下,leaf上行口的端口速率越小,组网规模越大,负载分担链路更加散列,包均衡能力更优,更适配国产芯片大规模组网需求 GSE部署优势,更好匹配国产芯片能力 以Leaf、Spine交换容量为12.8T为例: 3 2 1 Spine (32*400G) ... 1*400G 1*100G Spine (128*100G) ... 64 1*100G Leaf (64*100G +16*400G) 训练网口 1 12...8 ... 2 AI服务器64 AI服务器1 8 ..12...8 . ... 1 12...8 ... 2 AI服务器64 AI服务器1 8 ..12...8 . Leaf 3 2 1 16 (128*100G) 训练网口 1 12...8 ... 2 AI服务器64 AI服务器1 8 ..12...8 . ... 1 12...8 ... 2 AI服务器64 AI服务器1 8 ..12...8 . group1group4group1group16 Leaf上行400G组网情况Leaf上行100G组网情况 •组网规模:256台GPU服务器,2K张GPU卡 •包均衡能力:每Leaf上行有16条负载分担链路 •组网规模:1024台GPU服务器,8K张GPU卡 •包均衡能力:每Leaf上行有64条负载分担链路 同等芯片容量下,leaf上行端口速率为100G的组网规模较400G提升4倍,包均衡能力提升4倍14 中国移动携手中国信通院,联合国内外三十余家主流互联网,设备商、芯片商、高校院所联合发起GSE推进计划,推动智算中心网络技术创新、标准完善和产业应用,打造高速无损、开放兼容的新型智算中心网络技术体系 全调度以太网(GSE)推进计划进展概况 云网智联大会发布 《全调度以太网技术架构》白皮书 中国算力大会正式启动 2023.5 2023.8 2023.9 2023.11 2024.02 全调度以太网(GSE)推进计划 中国网络大会发布业界首款GSE原型系统 ODCC冬季全会GSE特设组成立及第一次工作组会议 GSE设备A厂商&B厂商互联互通测试 对标UEC,建议在CCSA成立国家层面的全调度以太网(GSE)推进委员会,工作范畴建议如下: 评估评测 联合仪表厂家开展