热门搜索：

秦凤伟：AIGC时代智算中心网络协议演进与思考

信息技术2023-11-15中国移动研究院测***

AI智能总结

智算中心网络协议演进与思考

1. 行业背景与需求驱动

AI需求激增：随着AI基础设施建设的不断布局，算力与网络成为支撑AI算力的两大关键基础设施。
算力与网络基础设施：GPU作为算力的核心，其市场规模的扩大直接推动了对网络设备的需求增长。

2. 算网基础设施的关键趋势

算力需求激增：AI智能计算需求持续增长，促使算网基础设施不断布局，尤其是GPU市场的扩张。
GPU与网络设备需求：GPU集群的广泛使用引发对网络设备的大量需求，网络发展前景明朗。

3. 智算中心的流量特性与挑战

流量模型差异：传统数据中心与智算中心的流量模型存在显著差异，包括流量数量、带宽、同步性等方面的变化。
AI模型部署挑战：AI大模型训练过程中，网络成为算力瓶颈，主要原因是GPU集群间的通信消耗大，网络性能直接影响算力加速比。

4. 高性能网络协议的现状与比较

IB与RoCE：InfiniBand和RoCE是当前主流的高性能网络协议，分别侧重于硬件级低时延和以太网的无损性，二者在路由、转发机制上有所不同。
性能差异：IB在传输层提供硬件级保障，而RoCE依赖于网络设备和网卡实现无损性，两者在性能上有各自的优势和局限。

5. 现存问题与创新方向

RoCE的挑战：RoCE网络在部署大AI模型时存在诸多问题，包括有效通信带宽不足、拥塞导致的时延和抖动增加。
解决方案探索：AWS通过革新SRD协议和优化网络架构，以及博通的DDC架构，旨在解决上述问题，通过改进报文处理和调度机制，提升网络效率。

6. 面向未来的智算中心网络标准与技术体系

GSE技术体系：GSE（全调度以太网）技术体系致力于解决智算中心网络中的带宽、时延、可靠性等问题，通过优化物理层、链路层、网络层和传输层，构建标准开放的架构。
标准化与合作：中国移动、中国信息通信研究院以及多家企业、机构共同发起GSE推进计划，推动技术标准和产业生态的成熟。

7. 智能网络技术的展望

GSE技术体系的推进：物理层、链路层、网络层和传输层的优化，以及管理和运维体系的增强，共同构建起高速、无损的智算中心网络。
可靠性与性能提升：通过引入NDMA（新型多播协议）和改进网络可靠性机制，提升智算中心网络的稳定性和效率。

结论

智算中心网络的演进与优化是支撑AI大模型训练的关键，通过全调度以太网等技术体系的创新与标准化工作，有望解决当前面临的带宽、时延、可靠性等挑战，推动AI技术的发展与应用。

AIGC时代智算中心网络协议演进与思考中国移动秦凤伟2023.11 ChatGPT引爆AI，智算算力需求激增，参数量呈指数级迭代增长推动计算与网络基础设施建设不断布局智能计算需求持续激增算网基础设施不断布局 ChatGPT驱动AI大模型训练进入爆发期，参数量指数级增长，AI智能算力增速远超摩尔定律来源：IDC,2022 我国智算增长迅速，较2019年，2023年算力规模提升14倍，预测未来仍会大幅度的增长随着算力需求的快速增长，AI基础设施建设不断布局，算与网成为AI算力的两大重要基础设施 AI基础设施算为核心网为根基 •算力需求激增，GPU是重中之重 •AI芯片市场规模不断扩大，较2022年，2026年 AI芯片规模提升4倍，GPU市场已是红海 •GPU市场规模提升，对网络设备需求激增，网络发展前景极为明朗来源：Frost&Sullivan，中商产业研究院... 来源：中商产业研究院，安信证券研究中心 2 AI大模型以GPU集群分布式训练为基础，带来大量节点间通信消耗，网络成为AI算力“瓶颈” 当前业界主流智算中心网络技术被国外厂商垄断，网络芯片存在代际差距，网络可能成为我国AI发展的“新卡点” 集群有效算力∝｛GPU单卡算力*总卡数*线性加速比*有效运行时｝网络性能决定GPU集群算力加速比 GPU集群性能≠单GPU性能*N 网络设备能力决定GPU集群组网规模芯片容量提升2倍，组网规模提高4倍网络可用性决定GPU集群稳定性 2%的丢包就会使RDMA吞吐率下降为0 随着GPU单卡算力进一步受限，获得同等算力的难度持续增加，以网强算是支撑为未来大模型训练的关键 3 累积流量单个流量累积流量 GPU停工等待其他GPU完成工作单个流量传统DC流量模型智算中心大模型（All-to-all）流量模型 •单个流量：数量多、带宽小、异步 •累积流量：抖动幅度较小，具有随机性 •单个流量：数量少、带宽大、同步 •累积流量：波峰、波谷效应明显，具有周期性 4 InfiniBand与RoCE是由IBTA提出的两种主流面向RDMA提供高性能交换能力的传输协议，前者从硬件级别保证网络低时延、高吞吐，后者是将RDMA应用到以太网，依赖PFC等协议实现无损，两者在路由机制、转发机制、算网能力等方面存在差异 RDMA软件栈 IB传输层 IB传输层 IB网络层 UDP 网络层 IB链路层以太链路层 IB传输层 IB网络层以太链路层 •Infiniband：1999年IBTA提出，第一代RDMA技术，交换机、网卡、光模块、光纤都是专用产品，专用无损网络，全球独家，和以太网不能互通，采购及维护成本高 •RoCE：2010年IBTA提出，本质为网卡侧封装技术，不涉及网络侧技术，网络无损能力依赖网络设备与网卡实现，产业开放，组网规模和转发性能较差 InfinibandRoCEv1RoCEv2 IB •集中算路统一下发 •结合端口拥塞+SPF，选择最优路径 vs 管控机制不同，路由算法存在差异 RoCE •个体算路相互独立 •只看最短路径，易出现端口拥塞，故障触发倒换 IB •直通转发，静态时延低 •协议本身支持端到端流控 vs 缓存校验查表查表转发转发机制不同，网络性能存在差异 RoCE •存储转发，缓存时延大 •需借助PFC、DCQCN协议实现端到端流控5 现有以太网协议基础转发和调度机制，在AI模型训练场景存在天然缺陷，单纯优化上层网络协议无法解决，需对底层转发和调度机制进行革新，并推动网络芯片底层逻辑架构支持，突破无损以太性能瓶颈基于流转发，流数量少导致哈希失效，链路负载不均源端任意向网络推流，出现拥塞被动降速，GPU闲置等待 •问题：AI训练的流特征是流数量少但单流带宽大，传统流级负载均衡极易造成多个流哈希到同一条链路，造成部分链路拥塞，部分空闲，网络利用率低，无法应对突发的网络流量有效通信带宽≠网卡/交换机组网物理带宽 •方向：对每条流的多个数据包逐个进行负载分担，实现单流在全路径“喷洒”，提升有效带宽，更好应对突发流量 •问题：传统以太网源端发流不关注网络情况及目的端接受能力，直接向网络“推”流，AI训练过程存在多打一流量，导致网络产生拥塞或丢包；通知源端降速或重传，导致GPUGPU空闲，算力损失 In-cast流量任务同步产生“多打一”流量，拥塞导致时延、抖动增加 •方向：源端向目的端“请求”发送权限，基于网络转发能力的被动“拉”流，最大概率消除拥塞概率，优化长尾时延 6 业界智算中心高性能网络标准组织介绍---UEC 2023年7月19日，Linux基金会成立超以太网联盟(UEC)，发布UE技术愿景白皮书，当前已成立四个工作组并与OCP开展合作 •面向大模型和高性能计算场景，从物理层到软件层对以太协议栈和配套芯片产业进行革新 •创始成员：AMD、Arista、博通、思科、Eviden、HPE、Intel、Meta和微软，强强联合，覆盖全产业生态，核心是将“产品”标准化 UEC组织愿景基于以太网，实现一个开放、可互通、高性能、全通信栈的架构，满足大规模AI和HPC不断增长的网络需求可互通基于IP和以太网完善的生态系统，物理层不做颠覆性改革开放性以开放的生态抗衡封闭的技术体系高性能聚焦传输层性能优化，支持报文喷洒和乱序，拥塞控制等全栈优化物理层、链路层、传输层、软件应用层共同优化 7 AWS基于自研Nitro卡革新SRD协议，优化组网规模和抖动核心思想：通过RD传输模式增大组网规模，通过报文切分和全链路喷洒技术优化抖动，EBS场景吞吐量提升4X，写延迟降低90% 采用多级Bigraph拓扑架构，充分利用以太网多路径优势 无序交付，单流多路径，降低时延 报文等长切分技术，优化抖动 Based-RTT拥塞控制算法基于信元交换的博通DDC架构，端到端授权，充分利用网络带宽核心思想：Spine-Leaf架构内部不使用以太协议，通过Cell-Based转发机制和基于请求授权的流控体系全面提升网络有效带宽，减少网络抖动 兼容网卡能力及RoCE协议，网络基于Cell-Based的精细颗粒度转发及动态负载 采用VoQ技术实现端到端流量调度，最大程度防止网络拥塞概率 端口速率适配性强，组网架构灵活 8 网络层新型组网拓扑新型组播/任播协议新型负载均衡机制改进的RDMA 大规模QP 乱序重排选择性重传传输模式传输层拥塞管理流量控制拥塞检测拥塞控制拥塞通告拥塞算法 GSE技术体系最大限度兼容以太网生态，从四层（物理层、链路层、网络层、传输层）+一体（管理和运维体系）等几个层级进行优化和增强，构建无阻塞、高带宽、低时延的新型智算中心网络，形成标准开放的技术体系，助力AI产业发展物理层故障快速检测 PhySec 低延迟FEC 光交换高速光接口网络可视化变更自动化运维自动化测试验收自动化部署自动化管理与运维体系链路层报文分发和重组机制调度机制链路级安全及容错机制 9 800G&1.6Tbps以太网将成为承载超高速算力互联、构建算网基础设施的重要手段，满足智算中心网络AI大模型应用场景带来的数据量持续增长需求高波特率光电器件、5nm制程oDSP成熟当前：光电接口均以单通道100G速率为主未来：光电接口将采用单通道200G速率以及800GE/1.6TE相干 800GE&1.6TE 接口形态 8×100GPAM4 4×200GPAM4 800GE相干 8×200GPAM4 1.6TE相干 202320252027 800GE&1.6TE 标准演进草案阶段 IEEE802.3df：单通道100GPAM4 标准发布草案阶段 IEEE802.3dj：单通道200GPAM4、800GE/1.6TE相干标准发布 10 新型光交换机与传统交换机的核心区别在于用光口代替电口，无需插光模块，可实现端口与速率无关；内部无交换芯片，点到点通信关系一定时间内固定，设备容量及端口密度与芯片无关，可用在网络中替代Spine设备，提升网络性能及建设扩容灵活性 Spine 电口 Leaf OCS 光口 Leaf •端口密度：400G*32口（电）——根据芯片容量 •额外需求：配备400G光模块（3w/个） •成本：~60w/台 •技术特征： 通过路由表转发，端口间通信关系灵活（N对N） 上下游速率要求对等，负载不均时，Spine下行会出现拥塞场景 设备交换容量依赖芯片，组网规模受限于芯片能力 •端口密度：576*576口（光）——根据技术工艺 •额外需求：无需光模块，光纤直连面板 •成本：100~200w/台 •技术特征： 端口间通信关系固定，通过全光开关进行切换（1对1） 光信号完全透明传输，无需光模块，与速率无关，避免光电转化，时延更低 设备交换容量无上限（取决于光纤传输能力），从国产化角度出发，对芯片依赖程度小，支持大规模节点组网11 •Group与Group之间full-mash,每个group内部可以是任意拓扑结构，如Fat-tree（Dragonfly+） switchgroupnodeIntra-linkInter-link MR路由（MinimalRouting）：通过路由协议（isisorospf）找到最短路径转发，无法实现负载均衡，无法充分利用带宽资源 NMR路由（Non-minimalRouting）：目前没有标准方法，人为手工调整权重和cost值、BGP路由策略和路由属性指导路径转发，自动化能力差、管理复杂 AR路由（AdaptiveRouting）：动态调整路径，非最短路径路由需手工配置，多个拥塞点出现，会导致流量无法切换路径丢包 VLB路由（ValiantLoad-BalanceRouting）：Valiant算法动态调整，链路长度*路径的拥塞程度的大小决定选择路径，拥塞程度消息获取方式未标准化。 •人为干预控制流量转发，缺乏动态负载分担机制 •现有网络架构缺乏网络拥塞的标准定义和远程拥塞的通知机制，难以及时获取拥塞信息。 IETF117:draft-wang-rtgwg-dragonfly-routing-problem-0012 中国移动提出全调度以太网（GSE）技术架构，最大限度兼容以太网生态，创新基于报文容器（PKTC）的转发及调度机制，构建无阻塞、高带宽、低时延的新型智算中心网络，形成标准开放的技术体系，助力AI产业发展从“局部”决策到“全局”调度从“流”分发到“报文”分发从盲发+被动控制到感知+主动控制创新以太网转发机制，实现三大核心机制转变将业务流拆分到不同“报文容器”转发，提供逐“报文容器”负载均衡机制，提升带宽利用率从被动拥塞控制，到基于“授权请求和响应机制”的主动流控，最大限度避免网络拥塞产生全局视野的转发调度机制，实现集中式管理运维、分布式控制转发，提高网络可用性拥塞 Spine 目的leaf Spine Spine 丢 21 包 321 321 3 2 1 3 2 1 源leaf 3 2 1 3 2 1 3 2 1 321 当前：逐流负载，链路利用率低、发生拥塞被动降速未来：逐报文容器转发，链路负载均衡，全局调度，避免拥塞13 中国移动携手中国信通院，联合国内外三十余家主流互联网，设备商、芯片商、高校院所联合发起GSE推进计划，推动智算中心网络技术创新、标准完善和产业应用，打造高速无损、开放兼容的新型智算中心网络技术体系 2023.5 2023.6 2023.8 2023.9 云网智联大会发布《全调度以太网技术架构》白皮书 CCSA成功立项《全调度以太网总体技术要求》中国算力大会正式启动全调度以太网（GSE）推进计划中国网络大会发布业界首款GSE原型系统 •全调度以太网（GSE）推进计划研究范畴： •成员

点击免费查看完整报告