AIGC时代智算中心网络协议演进与思考 中国移动秦凤伟2023.11 ChatGPT引爆AI,智算算力需求激增,参数量呈指数级迭代增长推动计算与网络基础设施建设不断布局 智能计算需求持续激增算网基础设施不断布局 ChatGPT驱动AI大模型训练进入爆发期,参数量指数级 增长,AI智能算力增速远超摩尔定律 来源:IDC,2022 我国智算增长迅速,较2019年,2023年算力规模提升14倍,预测未来仍会大幅度的增长 随着算力需求的快速增长,AI基础设施建设不断布局, 算与网成为AI算力的两大重要基础设施 AI基础设施 算为核心 网为根基 •算力需求激增,GPU是重中之重 •AI芯片市场规模不断扩大,较2022年,2026年 AI芯片规模提升4倍,GPU市场已是红海 •GPU市场规模提升,对网络设备需求 激增,网络发展前景极为明朗 来源:Frost&Sullivan,中商产业研究院... 来源:中商产业研究院,安信证券研究中心 2 AI大模型以GPU集群分布式训练为基础,带来大量节点间通信消耗,网络成为AI算力“瓶颈” 当前业界主流智算中心网络技术被国外厂商垄断,网络芯片存在代际差距,网络可能成为我国AI发展的“新卡点” 集群有效算力∝{GPU单卡算力*总卡数*线性加速比*有效运行时} 网络性能决定GPU集群算力加速比 GPU集群性能≠单GPU性能*N 网络设备能力决定GPU集群组网规模 芯片容量提升2倍,组网规模提高4倍 网络可用性决定GPU集群稳定性 2%的丢包就会使RDMA吞吐率下降为0 随着GPU单卡算力进一步受限,获得同等算力的难度持续增加,以网强算是支撑为未来大模型训练的关键 3 累积流量 单个流量 累积流量 GPU停工等待其他GPU完成工作 单个流量 传统DC流量模型智算中心大模型(All-to-all)流量模型 •单个流量:数量多、带宽小、异步 •累积流量:抖动幅度较小,具有随机性 •单个流量:数量少、带宽大、同步 •累积流量:波峰、波谷效应明显,具有周期性 4 InfiniBand与RoCE是由IBTA提出的两种主流面向RDMA提供高性能交换能力的传输协议,前者从硬件级别保证网络低时延、高吞吐,后者是将RDMA应用到以太网,依赖PFC等协议实现无损,两者在路由机制、转发机制、算网能力等方面存在差异 RDMA软件栈 IB传输层 IB传输层 IB网络层 UDP 网络层 IB链路层 以太链路层 IB传输层 IB网络层以太链路层 •Infiniband:1999年IBTA提出,第一代RDMA技术,交换机、网卡、光模块、光纤都是专用产品,专用无损网络,全球独家,和以太网不能互通,采购及维护成本高 •RoCE:2010年IBTA提出,本质为网卡侧封装技术,不涉及网络侧技术,网络无损能 力依赖网络设备与网卡实现,产业开放,组网规模和转发性能较差 InfinibandRoCEv1RoCEv2 IB •集中算路统一下发 •结合端口拥塞+SPF,选择最优路径 vs 管控机制不同,路由算法存在差异 RoCE •个体算路相互独立 •只看最短路径,易出现端口拥塞,故障触发倒换 IB •直通转发,静态时延低 •协议本身支持端到端流控 vs 缓存 校验 查表 查表转发 转发机制不同,网络性能存在差异 RoCE •存储转发,缓存时延大 •需借助PFC、DCQCN协议实现 端到端流控5 现有以太网协议基础转发和调度机制,在AI模型训练场景存在天然缺陷,单纯优化上层网络协议无法解决,需对底层转发和调度机制进行革新,并推动网络芯片底层逻辑架构支持,突破无损以太性能瓶颈 基于流转发,流数量少导致哈希失效,链路负载不均源端任意向网络推流,出现拥塞被动降速,GPU闲置等待 •问题:AI训练的流特征是流数量少但单流带宽大,传统流级负载均衡极易造 成多个流哈希到同一条链路,造成部分链路拥塞,部分空闲,网络利用率低, 无法应对突发的网络流量 有效通信带宽≠网卡/交换机组网物理带宽 •方向:对每条流的多个数据包逐个进行负载分担,实现单流在全路径“喷洒”,提升有效带宽,更好应对突发流量 •问题:传统以太网源端发流不关注网络情况及目的端接受能力,直接向网络“推”流,AI训练过程存在多打一流量,导致网络产生拥塞或丢包;通知源端降速或重传,导致GPUGPU空闲,算力损失 In-cast流量 任务同步产生“多打一”流量,拥塞导致时延、抖动增加 •方向:源端向目的端“请求”发送权限,基于网络转发能力的被动“拉”流,最大概率消除拥塞概率,优化长尾时延 6 业界智算中心高性能网络标准组织介绍---UEC 2023年7月19日,Linux基金会成立超以太网联盟(UEC),发布UE技术愿景白皮书,当前已成立四个工作组并与OCP开展合作 •面向大模型和高性能计算场景,从物理层到软件层对以太协议栈和配套芯片产业进行革新 •创始成员:AMD、Arista、博通、思科、Eviden、HPE、Intel、Meta和微软,强强联合,覆盖全产业生态,核心是将“产品”标准化 UEC组织愿景 基于以太网,实现一个开放、可互通、高性能、全通信栈的架构,满足大规模AI和HPC不断增长的网络需求 可互通 基于IP和以太网完善的生态系统,物理层不做颠覆性改革 开放性 以开放的生态抗衡封闭的技术体系 高性能 聚焦传输层性能优化,支持报文喷洒和乱序,拥塞控制等 全栈优化 物理层、链路层、传输层、软件应用层共同优化 7 AWS基于自研Nitro卡革新SRD协议,优化组网规模和抖动 核心思想:通过RD传输模式增大组网规模,通过报文切分和全链路喷洒技术优化抖动,EBS场景吞吐量提升4X,写延迟降低90% 采用多级Bigraph拓扑架构,充分利用以太网多路径优势 无序交付,单流多路径,降低时延 报文等长切分技术,优化抖动 Based-RTT拥塞控制算法 基于信元交换的博通DDC架构,端到端授权,充分利用网络带宽 核心思想:Spine-Leaf架构内部不使用以太协议,通过Cell-Based转发机制和基于请求授权的流控体系全面提升网络有效带宽,减少网络抖动 兼容网卡能力及RoCE协议,网络基于Cell-Based的精细颗粒度转发及动态负载 采用VoQ技术实现端到端流量调度,最大程度防止网络拥塞概率 端口速率适配性强,组网架构灵活 8 网络层 新型组网拓扑 新型组播/任播协议 新型负载均衡机制 改进的RDMA 大规模QP 乱序重排 选择性重传 传输模式 传输层 拥塞管理 流量控制 拥塞检测 拥塞控制 拥塞通告 拥塞算法 GSE技术体系最大限度兼容以太网生态,从四层(物理层、链路层、网络层、传输层)+一体(管理和运维体系)等几个层级进行优化和增强,构建无阻塞、高带宽、低时延的新型智算中心网络,形成标准开放的技术体系,助力AI产业发展 物理层 故障快速检测 PhySec 低延迟FEC 光交换 高速光接口 网络可视化 变更自动化 运维自动化 测试验收自动化 部署自动化 管理与运维体系 链路层 报文分发和重组机制 调度机制 链路级安全及容错机制 9 800G&1.6Tbps以太网将成为承载超高速算力互联、构建算网基础设施的重要手段,满足智算中心网络AI大模型应用场景带来的数据量持续增长需求 高波特率光电器件、5nm制程oDSP成熟 当前:光电接口均以单通道100G速率为主未来:光电接口将采用单通道200G速率以及800GE/1.6TE相干 800GE&1.6TE 接口形态 8×100GPAM4 4×200GPAM4 800GE相干 8×200GPAM4 1.6TE相干 202320252027 800GE&1.6TE 标准演进 草案阶段 IEEE802.3df:单通道100GPAM4 标准发布 草案阶段 IEEE802.3dj:单通道200GPAM4、800GE/1.6TE相干 标准发布 10 新型光交换机与传统交换机的核心区别在于用光口代替电口,无需插光模块,可实现端口与速率无关;内部无交换芯片,点到点通信关系一定时间内固定,设备容量及端口密度与芯片无关,可用在网络中替代Spine设备,提升网络性能及建设扩容灵活性 Spine 电口 Leaf OCS 光口 Leaf •端口密度:400G*32口(电)——根据芯片容量 •额外需求:配备400G光模块(3w/个) •成本:~60w/台 •技术特征: 通过路由表转发,端口间通信关系灵活(N对N) 上下游速率要求对等,负载不均时,Spine下行会出现拥塞场景 设备交换容量依赖芯片,组网规模受限于芯片能力 •端口密度:576*576口(光)——根据技术工艺 •额外需求:无需光模块,光纤直连面板 •成本:100~200w/台 •技术特征: 端口间通信关系固定,通过全光开关进行切换(1对1) 光信号完全透明传输,无需光模块,与速率无关,避免光电转化,时延更低 设备交换容量无上限(取决于光纤传输能力),从国产化角度出发,对芯片依 赖程度小,支持大规模节点组网11 •Group与Group之间full-mash,每个group内部可以是任意拓扑结构,如Fat-tree(Dragonfly+) switchgroupnodeIntra-linkInter-link MR路由(MinimalRouting):通过路由协议(isisorospf)找到最短路径转发,无法实现负载均衡,无法充分利用带宽资源 NMR路由(Non-minimalRouting):目前没有标准方法,人为手工调整权重和cost值、BGP路由策略和路由属性指导路径转发,自动化能力差、管理复杂 AR路由(AdaptiveRouting):动态调整路径,非最短路径路由需手工配置,多个拥塞点出现,会导致流量无法切换路径丢包 VLB路由(ValiantLoad-BalanceRouting):Valiant算法动态调整,链路长度*路径的拥塞程度的大小决定选择路径,拥塞程度消息获取方式未标准化。 •人为干预控制流量转发,缺乏动态负载分担机制 •现有网络架构缺乏网络拥塞的标准定义和远程拥塞的通知机制,难以及时获取拥塞信息。 IETF117:draft-wang-rtgwg-dragonfly-routing-problem-0012 中国移动提出全调度以太网(GSE)技术架构,最大限度兼容以太网生态,创新基于报文容器(PKTC)的转发及调度机制,构建无阻塞、高带宽、低时延的新型智算中心网络,形成标准开放的技术体系,助力AI产业发展 从“局部”决策到“全局”调度 从“流”分发到“报文”分发 从盲发+被动控制到感知+主动控制 创新以太网转发机制,实现三大核心机制转变 将业务流拆分到不同“报文容器”转发,提供逐“报文容器”负载均衡机制,提升带宽利用率 从被动拥塞控制,到基于“授权请求和响应机制”的主动流控,最大限度避免网络拥塞产生 全局视野的转发调度机制,实现集中式管理运维、分布式控制转发,提高网络可用性 拥塞 Spine 目的leaf Spine Spine 丢 21 包 321 321 3 2 1 3 2 1 源leaf 3 2 1 3 2 1 3 2 1 321 当前:逐流负载,链路利用率低、发生拥塞被动降速未来:逐报文容器转发,链路负载均衡,全局调度,避免拥塞13 中国移动携手中国信通院,联合国内外三十余家主流互联网,设备商、芯片商、高校院所联合发起GSE推进计划,推动智算中心网络技术创新、标准完善和产业应用,打造高速无损、开放兼容的新型智算中心网络技术体系 2023.5 2023.6 2023.8 2023.9 云网智联大会发布 《全调度以太网技术架构》白皮书 CCSA成功立项 《全调度以太网总体技术要求》 中国算力大会正式启动 全调度以太网(GSE)推进计划 中国网络大会发布 业界首款GSE原型系统 •全调度以太网(GSE)推进计划研究范畴: •成员