您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中国移动研究院]:程伟强:B400G以太网助力智算中心光互联 - 发现报告
当前位置:首页/行业研究/报告详情/

程伟强:B400G以太网助力智算中心光互联

AI智能总结
查看更多
程伟强:B400G以太网助力智算中心光互联

B400G以太网助力智算中心光互联 程伟强 中国移动研究院-基础网络技术研究所 AI大模型带动算力成为数字经济时代的核心竞争力。到2025年,我国算力规模将超过300EFLOPS,智能算力占比达到35%;算力基础设施将成为推动我国经济转型升级和培育新动能的重要力量 国家发改委:《全国一体化大数据中心协同创新体系算力枢纽实施方案》 工信部:加速推进高端芯片、新型数据中心等领域研发突破 工信部等六部门联合印发《算力基础设施高质量发展行动计划》 2021年5月 2022年1月 2022年7月 2023年5月 2023年10月 国家发改委:我国将布局八大算力网络国家枢纽节点加快数字经济发展 中央网信办:以算力、赋能、产业发展互动走出数字经济特色化发展道路 智算中心将成为支撑和引领数字经济发展的关键信息基础设施,将有效促进AI产业化、产业AI化的进程 2022年12月 2022年中国移动全球合作伙伴大会发布《新一代智算中心网络技术白皮书》 2023年5月 2023云网智联大会发布《面向AI大模型的智算中心网络演进白皮书》 2023年8月 2023年中国算力(基础设施)大会发布《中国移动NICC新型智算中心技术体系白皮书 累积流量 单个流量 累积流量 GPU停工等待其他GPU完成工作 单个流量 传统DC流量模型智算中心大模型(All-to-all)流量模型 •单个流量:数量多、带宽小、异步 •累积流量:抖动幅度较小,具有随机性 •单个流量:数量少、带宽大、同步 •累积流量:波峰、波谷效应明显,具有周期性 AI大模型以GPU集群分布式训练为基础,带来大量节点间通信消耗,网络成为AI算力“瓶颈” 当前业界主流智算中心网络技术被国外厂商垄断,网络芯片存在代际差距,网络可能成为我国AI发展的“新卡点” 集群有效算力∝{GPU单卡算力*总卡数*线性加速比*有效运行时} 网络设备能力决定GPU集群组网规模 芯片容量提升2倍,组网规模提高4倍 网络性能决定GPU集群算力加速比 GPU集群性能≠单GPU性能*N 网络可用性决定GPU集群稳定性 2%的丢包就会使RDMA吞吐率下降为0 随着GPU单卡算力受限,以网强算成为提升大模型训练效率的关键,探索以太网的新调度机制、新接口速率和新安全方案,提升智算中心网络性能和整体算力水平 以太网新调度机制—GSE 以太网新接口速率—B400GE 以太网新安全方案—PHYSec 中国移动提出全调度以太网(GSE)技术架构,最大限度兼容以太网生态,创新基于报文容器(PKTC)的转发及调度机制,构建无阻塞、高带宽、低时延的新型智算中心网络,形成标准开放的技术体系,助力AI产业发展 从“流”分发到“报文”分发 从盲发+被动控制到感知+主动控制 从“局部”决策到“全局”调度 创新以太网转发机制,实现三大核心机制转变 将业务流拆分到不同“报文容器”转发,提供逐“报文容器”负载均衡机制,提升带宽利用率 从被动拥塞控制,到基于“授权请求和响应机 制”的主动流控,最大限度避免网络拥塞产生 全局视野的转发调度机制,实现集中式管理运维、分布式控制转发,提高网络可用性 拥塞 Spine 目的leaf Spine Spine 321 3 2 1 3 2 1 源leaf 3 2 1 3 2 1 3 2 1 321 321 丢包21 当前:逐流负载,链路利用率低、发生拥塞被动降速未来:逐报文容器转发,链路负载均衡,全局调度,避免拥塞6 报文容器是区别于CELL转发的一种核心转发机制,该机制下以太网报文根据最终设备或者设备出端口被逻辑分配并组装成”逻辑等长”的虚拟报文容器,并以该”容器”为最小单元在交换网络中传输 报文2 长度 报文1 长度 基于确定长度的容器转发提升多链路均衡性 早期链路速率低长短包转发差异性大 Cell1 切Cell Cell2 将来链路速率高总转发带宽增大Cell相应增大 组容器 Packet2 Packet1 Cell3 报文容器 Packet 报文容器1 报文2报文1 GSE Header 以太报文 GSE Header 以太报文 源节点根据报文容器长度以及已经占用的字节数为到达该节点的报文分配相应的容器ID,并记录其归属的报文容器编号及在该容器占用的字节数 •在输入端口将发送到不同端口(或者优先级)的数据包虚拟成不同的队列,并且彼此互不影响,解决HOL •从Send-based到Receive-based,避免网络入向流量大于网络容量,从源头避免网络拥塞 GSE IN OUT 信令请求获取信道资源 报文 报文时延 0流量负载(%) 100 非均匀到达模型下时延vs负载 无阻塞 低时延无损高带宽 vs •逐流负载均衡→高时延甚至丢包 •容器负载均衡→长尾时延低,网络利用率高 低时延 •每个转发节点根据自身负载情况对PKTC进行负载均衡,且同PKTC内的报文转发路径相同,高精度负载均衡方式,消除网络微突发,获得转发低延迟 •目的节点依照PKTC为单位进行容器间解乱序,同PKTC内报文严格保序 ... ... GSP GSP GSP GSF GSF 容器1 容器2 负载均衡方式轮询随机基于拥塞感知 容器间排序大大降低排序压力 以太网新调度机制—GSE 以太网新接口速率—B400GE 以太网新安全方案—PHYSec IEEEP802.3df&dj800GE和1.6TE规范目标 以太速率 信号速率 50mMMF 100mMMF 500mSMF 2kmSMF 10kmSMF 40kmSMF AUI BP Cu 800Gb/s 100Gb/s 800GAUI-8 800GBASE- KR8 800GBASE-CR8 8pairs800GE-VR8 8pairs 800GE-SR8 8pairs800GE-DR8 8pairs800GE-DR8-2 200Gb/s 800GAUI-4 800GBASE-KR4 800GBASE-CR4 4pairs800GE-DR4 •4pairs800GE-DR4-2 •4λ800GE-FR4 4λ800GBASE-LR4 800Gb/s 1pair 800GE-LR1 1pair800GE-ER1 1.6Tb/s 100Gb/s 1.6TAUI-16 200Gb/s 1.6TAUI-8 1.6TBASE-KR8 1.6TBASE- CR8 1.6TBASE-DR8 1.6TBASE-DR8-2 电通道 智算中心内光互联智算中心间光互联 802.3df 802.3df D1.0D2.0D3.0 100G/lane光+电 800GE(8x100G) 802.3dj 802.3dj 2021 2022 2023 2024 2025 2026+ 800GE(4×200G) 802.3dj D1.0 D2.0D3.0 1.6TbE(8x200G) 800GE(4×200G) B400GE标准演进时间线 200G/lane光+电Baseline 潜在继续分化出子项目 200G/lane电 800G单波相干 D1.0?/D2.0? 1.6TbE(8x200G) 800GE(1×800G) 1.6TE(2×800G)? 800Gbps以太网标准 802.3df:单通道100Gb/s的800G以太网标准,目前已完成TaskForceReview形成D3.1版本草案 “IEEEP802.3df™/D3.1,14Nov.2023”,正在进行标准协会(SA)范围审查 802.3dj:单通道200Gb/sFEC采用低复杂度Hamming(128,120)内码级联RS(544,514)外码;PMA逻辑层方案已确定,光层Baseline目前还未确定,仍处于技术讨论阶段,需要更长的时间完成方案收敛 802.3dj:面向10km和40km场景的单波800Gbps相干标准进展缓慢,800GELR1已确定采用KP4+BCH的FEC方案,但O波动和C波段之争逐渐白热化;800GER1采用相干已获得业界共识,FEC和光层PMD方案尚未明确 1.6Tbps以太网标准 802.3dj:1.6TEPCS/FEC方案已确定,电接口形态包括16通道100Gbps(16AUI-16)和8通道200Gbps(1.6TAUI-8);1.6T500m/2kmPMD子层方案尚未明确,2km采用相干技术可行性更高 1.6TbpsLPO和CPO等技术已出现商用产品形态,在智算中心场景也将具有广泛的应用潜力 中国移动积极参与并推动IEEE802.3df&dj工作组完成800G10km目标立项,完成800G10km相干技术路线确立,提交10余篇标准文稿 需求文稿 ApplicationRequirementforBeyond400GEfromTelecomOperators’Perspective 提出B400GE需求,引领技术方向 分析文稿 Considerationon800Gb/scoherentsolutionsfor10km 800G10km方案对比分析,凸显相干方案优势 分析文稿ConsiderationsonGMPbypassfor800G-LR1/ER1 800G-LR1/ER1的GMPbypass方案分析 标准文稿标准文稿 标准文稿 Towardsconsensusonacoherentbased800G10/40kmspecification UpdatetooFEC-basedsinglelambdabaselinefor10kmand40kmobjectives Alignmentof800GBASE-LR1and800GBASE-ER1withOIF800ZRImplementations-abaselineproposal 提出800G10/40km发射和接收标准规范建议 提出基于oFEC的800G10km/40km规范建议提出800G-LR1/ER1与800ZR一致性规范建议 800GE光模块性能测试 •测试拓扑:可插拔光模块插入测试仪表进行环回测试 •测试内容:非成帧误码率、FEC功能、发射机频率偏移、收发传输时延、通道时延偏差、固件功能等光模块性能测试 800GE光模块与路由器设备适配测试 •测试拓扑:路由器设备800G接口对接测试仪表进行互通测试 •测试内容:包括流量转发功能、业务功能等设备能力测试 本次测试800GE短距光模块性能整体较为稳定,模块功耗在15w左右和工作温度在50~60℃范围仍有待优化空间;800GE光模块与路由器设备和测试仪适配性能良好,业界支持800GE设备厂家还较为单一 模块类型 A厂商 B厂商 500m 500m 2km 500m 500m 非成帧误码率 通道1 1.0e-09 6.5e-10 3.3e-09 1.1e-07 3.3e-06 通道2 3.9e-10 1.6e-10 3.8e-08 2.3e-07 4.9e-06 通道3 1.4e-10 9.6e-10 1.7e-08 4.3e-08 1.6e-06 通道4 6.9e-11 8.4e-11 2.5e-08 4.9e-08 3.8e-06 通道5 2.7e-09 2.4e-09 2.3e-08 4.8e-08 2.3e-06 通道6 6.5e-10 6.0e-10 3.4e-08 6.1e-08 1.7e-06 通道7 2.0e-08 4.5e-09 3.6e-08 4.6e-09 3.0e-07 通道8 1.1e-10 1.0e-09 3.4e-08 6.9e-08 1.8e-06 模块时延 传输时延 51ns 52ns 43ns 92ns 90ns 时延抖动 3ns 3ns 4ns 4ns 3ns 以太网新调度机制—GSE 以太网新接口速率—B400GE 以太网新安全方案—PHYSec MACIPTC