热门搜索：

王瑞雪：大模型时代，智算网络性能评测挑战

信息技术2024-03-20中国移动研究院，

AI智能总结

中国移动研究院正在面临智算网络技术评测的挑战。随着AI基础设施的不断布局，智算中心和网络基础设施成为AI算力的重要组成部分。智算中心由GPU芯片为核心的计算基础设施和以高速以太网交换芯片为核心的网络基础设施组成。GPU市场规模的扩大和交换芯片更新换代周期的缩短，使得对网络设备的需求激增。网络成为AI算力的瓶颈，以网强算成为提升大模型训练效率的关键。智算中心网络用于连接CPU、GPU、内存等池化异构算力资源，贯穿数据计算、存储全流程，网络性能增强对提升智算中心整体算力水平具有关键意义。智算中心网络流量模型具有单个流量数量多、带宽小、突发异步和累积流量波峰、波谷效应明显、具有周期性等特点。

大模型时代，智算网络性能评测挑战中国移动研究院2024.03 目录 01 智算中心网络技术概况 02 全调度以太网技术创新 03 智算网络技术评测面临的挑战 2 智算中心是以GPU芯片为核心的计算基础设施和以高速以太网交换芯片为核心的网络基础设施的综合体，智能算力需求激增推动计算与网络基础设施建设不断布局算和网是新型智算中心关键基础设施中国移动NICC技术架构算和网基础设施倍受关注算力原生跨架构编译器算力抽象运行时智算平台 ROCm CUDA CANN ... 裸金属实例 Hypervisor+ 虚拟机实例容器实例计算网络存储基础设施 CPU GPU 交换机DPU 融合存储内存池高速互联计算总线高速以太网全局统一存储应用使能 TesnsorFlow AI开发框架 PyTorchPaddlePaddle DeepSpeed ... 机房配套液冷高效供电冷却水系统随着算力需求的快速增长，AI基础设施建设不断布局，算与网成为AI算力重要基础设施的两大核心 AI基础设施 GPU芯片为核心的算力基础 •算力需求激增，GPU是重中之重 •AI芯片市场规模不断扩大，较2022年，2026年AI芯片规模提升4倍 •GPU技术快速发展，Nvidia即将推出H200， H200的算力是H100的2倍左右以太网交换芯片为核心的网络基础 •GPU市场规模提升，对网络设备需求激增，交换芯片的更新换代周期缩短至1.5年来源：Frost&Sullivan，中商产业研究院... 来源：中商产业研究院，安信证券研究中心注：NewIntelligentComputingCenter（NICC），新型智算中心3 网络成为AI算力瓶颈，以网强算对我国更加重要 AI大模型以算力集群分布式训练为基础，带来大量节点间通信消耗，组网规模、网络性能和可靠性决定集群有效算力，网络成为AI算力“瓶颈”，以网强算成为提升大模型训练效率的关键集群有效算力∝｛GPU单卡算力*总卡数*线性加速比*有效运行时｝网络芯片容量决定GPU集群组网规模网络芯片性能决定GPU集群算力加速比网络可靠性决定GPU集群有效运行时间芯片容量提升2倍，组网规模提高4倍 GPU集群性能≠单GPU性能*N 2%的丢包就会使RDMA吞吐率下降为0 4 智算中心网络概况智算中心网络用于连接CPU、GPU、内存等池化异构算力资源，贯穿数据计算、存储全流程，网络性能增强对提升智算中心整体算力水平具有关键意义；与通用云计算网络不同，AI参数面网络要求极高，是业界关注焦点通算中心智算中心 ToBe–ClusterComputing IPMIIPMI 业务面 … 管理面 … 存储面 … IPMIIPMI IPMI IPMI 数据中心网络业务面 AsIs–DataCenter … 管理面 IPMI IPMI … 参数面 … 存储面 … 智算中心网络面向业务场景，以服务器/VM为池化对象网络提供VM/服务器之间连接数据面 … 面向任务场景，以算力资源为池化对象网络提供CPU、GPU、存储之间高速连接5 AI训练依赖典型集合通信原语 ALLReduce：在主节点上进行Reduce（如sum、min）操作，通过Garther分发给所有节点，所有节点得到相同数据， Allreduce：可以通过算法转化为对分通信 1+2 1+2 3+4 3+4 log2� 1+2 1+2 1+2 1+2 +3+ +3+ +3+ +3+ 4 4 4 4 一个典型的32卡HDallreduce过程： Step1-3：通过总线完成机内8卡通信 Step4-5：通过网络完成4台服务器之间的通信 0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7 HDallreduce Ringallreduce 1 2 3 4 1 2 step1 step2 4 3 通信数据量Double，无多打一 Ringallreduce 特征： 点到点通信，对分流量，无多打一 网络同轨通信6 通用算力以CPU芯片为主，业务种类多流量小，业务间相互独立；智能算力以GPU、Al芯片等人工智能芯片为主，通信关系固定，流数量少流量大，分布式训练带来大量节点的同步突发，木桶效应明显通算中心与智算中心流量模型差异性通算中心流量模型智算中心大模型（All-to-all）流量模型累积流量单个流量累积流量 GPU停工等待其他GPU完成工作单个流量 •单个流量：数量多、带宽小、突发异步 •累积流量：抖动幅度较小，具有随机性 •单个流量：数量少、带宽大、突发同步 •累积流量：波峰、波谷效应明显，具有周期性 7 通算中心与智算中心网络差异性业界主流通算中心与智算中心均采用spine-leaf架构，但两者端口速率、组网方式、网络协议均存在差异性 Spine交换机 Leaf交换机服务器通算中心组网方案智算中心组网方案 •端口速率方面：服务器端口10GE/25GE并存，汇聚层从40GE向100GE演进 •服务器网卡数量：一机双卡 •设备关系：交换机设备之间部署MC-LAG •组网形态：Leaf为盒式设备，Spine多为框式设备 •端口速率方面：服务器端口200GE/400GE，汇聚层400GE/800GE •服务器网卡数量：一机八卡 •设备关系：交换机设备之间独立 •组网形态：Leaf为盒式设备，Spine多为盒式设备 8 目录 01 智算中心网络技术概况 02 全调度以太网技术创新 03 智算网络技术评测面临的挑战 9 当前智算中心网络技术问题和挑战现有以太网协议基于流的负载分担及拥塞控制机制，在AI模型训练场景存在天然缺陷，导致网络有效带宽和时延受限问题一：基于流的负载均衡存在哈希极化问题问题二：被动拥塞控制导致GPU闲置 •问题：传统流级负载均衡极易造成多个流哈希到同一条链路，造成部分链路拥塞，部分空闲，网络利用率低，无法应对突发的网络流量 60 switch 100 switch 60 100 60 有效通信带宽≠网卡/交换机组网物理带宽 •问题：传统以太网源端发流不关注网络情况及目的端接受能力，直接向网络“推”流，产生多打一流量，导致网络产生拥塞或丢包，导致GPU空闲，算力损失 In-cast流量任务同步产生“多打一”流量，拥塞导致时延、抖动增加 InfiniBand和RoCE存在各自问题，基于新型以太网构建开放、标准的生态，成为智算中心网络技术演进方向10 GSE链路层三大核心技术 GSE创新以太网转发机制，基于三大核心机制转变，实现高精度负载均衡、网络层原生无损及低延迟从“流”分发到“报文”分发从盲发+被动控制到感知+主动控制从“局部”决策到“全局”调度将业务流拆分到不同“报文容器”转发，提供逐“报文容器”负载均衡机制，提升带宽利用率从被动拥塞控制，到基于“授权请求和响应机制”的主动流控，最大限度避免网络拥塞产生基于算网协同的全局视野转发调度机制，实现集中式管理运维、分布式控制转发拥塞 Spine 目的leaf Spine Spine 丢 21 包 321 321 3 2 1 3 2 1 源leaf 3 2 1 3 2 1 3 2 1 321 当前：逐流负载，链路利用率低、发生拥塞被动降速未来：逐报文容器转发，链路负载均衡，全局调度，避免拥塞 11 GSE技术体系最大限度兼容以太网生态，从四层（物理层、链路层、网络层、传输层）+一体（管理和运维体系）等层级优化和增强，GSE体系架构最大限度兼容以太网生态，创新基于报文容器（PKTC）的转发及调度机制，构建无阻塞、高带宽、低时延的新型智算中心网络，形成标准开放的技术体系，助力AI产业发展网络可视化变更自动化运维自动化测试验收自动化部署自动化管理与运维体系全调度以太网（GSE）技术体系框架传输层高可扩展的传输队列/连接管理新型传输服务高效可靠性机制拥塞/流量控制乱序重排选择性重传灵活报文/事务交付序设计拥塞算法拥塞检测拥塞通告网络层新型组网拓扑新型组播/任播协议新型负载均衡机制链路层报文分发和重组机制调度机制链路级安全及容错机制物理层高速光接口光交换低延迟FEC PhySec 故障快速检测 12 全调度以太网（GSE）部署场景 GSE协议可根据网络设备和网卡能力，将方案各组件功能在网络组件中重新分工，支持多种组网场景，为后续网络建设和设备选型提供灵活的方案选择场景一：仅网侧运行GSE，网卡不感知场景二：部分功能下沉网卡，实现端网协同 Spine Leaf Spine Leaf GSF… … GSP GSF GSF GSF GSP … … GSF GSP 网卡网卡网卡网卡网卡网卡计算卡计算卡计算卡计算卡计算卡计算卡网卡网卡网卡网卡 GSPGSPGSP 计算卡计算卡计算卡计算卡计算卡计算卡 •GSP和GSF角色均由网络设备担任，执行GSE头解封装、多路径分发、端到端授权应答及报文排序 •传统RoCE网卡，对网卡无额外要求 •适用于华为昇腾GPU生态系统 •源GSP、GSF由网络设备担任，执行、多路径分发等功能 •网卡承担部分GSP角色，负责GSE头解封装、授权应答和报文排序 •适用于英伟达及其他国产GPU生态系统 13 采用逐包分发技术后，对leaf上行带宽需求降低，同等芯片容量下，leaf上行口的端口速率越小，组网规模越大，负载分担链路更加散列，包均衡能力更优，更适配国产芯片大规模组网需求 GSE部署优势，更好匹配国产芯片能力以Leaf、Spine交换容量为12.8T为例： 3 2 1 Spine （32*400G） ... 1*400G 1*100G Spine （128*100G） ... 64 1*100G Leaf （64*100G +16*400G）训练网口 1 12...8 ... 2 AI服务器64 AI服务器1 8 ..12...8 . ... 1 12...8 ... 2 AI服务器64 AI服务器1 8 ..12...8 . Leaf 3 2 1 16 （128*100G）训练网口 1 12...8 ... 2 AI服务器64 AI服务器1 8 ..12...8 . ... 1 12...8 ... 2 AI服务器64 AI服务器1 8 ..12...8 . group1group4group1group16 Leaf上行400G组网情况Leaf上行100G组网情况 •组网规模：256台GPU服务器，2K张GPU卡 •包均衡能力：每Leaf上行有16条负载分担链路 •组网规模：1024台GPU服务器，8K张GPU卡 •包均衡能力：每Leaf上行有64条负载分担链路同等芯片容量下，leaf上行端口速率为100G的组网规模较400G提升4倍，包均衡能力提升4倍14 中国移动携手中国信通院，联合国内外三十余家主流互联网，设备商、芯片商、高校院所联合发起GSE推进计划，推动智算中心网络技术创新、标准完善和产业应用，打造高速无损、开放兼容的新型智算中心网络技术体系全调度以太网（GSE）推进计划进展概况云网智联大会发布《全调度以太网技术架构》白皮书中国算力大会正式启动 2023.5 2023.8 2023.9 2023.11 2024.02 全调度以太网（GSE）推进计划中国网络大会发布业界首款GSE原型系统 ODCC冬季全会GSE特设组成立及第一次工作组会议 GSE设备A厂商&B厂商互联互通测试对标UEC，建议在CCSA成立国家层面的全调度以太网（GSE）推进委员会，工作范畴建议如下：评估评测联合仪表厂家开展

点击免费查看完整报告

你可能感兴趣

王瑞雪：大模型时代，智算网络性能评测挑战

你可能感兴趣

王瑞雪：全调度以太网，构建新型智算中心网络底座

驱动未来：面向大模型的智算网络

面向AI大模型的智算中心网络演进白皮书（2023年）

万卡级超大规模智算集群网络运维挑战及实战

超算、智算及数据中心行业报告：算力中心铸就大模型时代基座