算网一体及其网络技术问题探索 孙滔 中国移动研究院 2023.10 目录 01 算力网络及算网一体 02 几个网络问题探索 03 智算DSN展望 2 算力网络——迎接智算时代 •我国数据中心规模近五年年均增速达到近30%;截至2023年8月,我国在用标准机架超过760万架,算力总规模达197EFLOPS,位居全球第二(工信部2023.10世界5G大会) •中国移动对外可用IDC机架47.8万架,累计投产算力服务器超80.4万台,算力规模达到9.4EFlops(半年报2023.8) •2022年2月,“东数西算”工程正式全面启动,8个国家算力枢纽节点,规划10个国家数据中心集群 •算力网络从未来网络的技术名词成为产业发展的旗帜, 打造“1-5-20ms”三级算力时延圈连续两年财报公布算力规模建设亚洲最大单体智算中心 1ms 地市时延圈 5m 省域时延圈 20ms骨干时延圈 单位/EFLOPS 9.4 端侧城市边缘 算力算力 省级/区枢纽枢纽 域算力算力算力 8 2022年报2023半年报 中国移动呼和浩特智算中心,总能力将达到5.8EFLOPS,万片级AI加速芯片 3 哪些“东数”要“西算”? 是否存在一个量化的指标,来指导“东数西算”仍然是待研究的问题 中电联《中国电力行业年度发展报告2023》报告显示2022年全国电力传输线损率4.82% 不敏感时延 西部东部 数据传输 短视频、电子游戏、网络即时通信等时延敏感应用,异地计算无法保障用户体验。 不频繁数据交互 HPC天气预报等计算过程中不需要频繁交互的应用,可以异地计算。 F=A1Delay+A2Cost+A3Energy 量化指标 +... 东数西算协同调度,需要考虑多种因素,如业务需求、时延、成本、能效等。 当前,大模型训练往往是同一数据中心内跨框跨机架训练,不会涉及跨数据中心联合训练 大模型训练方式大模型训练通信需求 •张量并行:将单个数学运算拆分到不同的GPU上运行 •流水线并行:在不同GPU上运行模型的不同层 •数据并行:在不同GPU上运行不同的batchdata •训练过程中的数据同步延迟可能导致整体训练流程停滞 •模型规模扩大造成通信量剧烈增长,需提供充足的网络带宽 例如,在100Gbps网络下,在16GPU之间执行128MBAllReduce需要至少消耗5ms;数据量进一步增加,理论传输时间会等比例上升。 [1]JaeyongSong,JinkyuYim,JaewonJung,HongsunJang,Hyung-JinKim,YoungsokKim,JinhoLee,2023,Optimus-CC:EfficientLargeNLPModelTrainingwith3DParallelismAwareCommunicationCompression,https://arxiv.org/pdf/2301.09830.pdf 4 端边云协同是工程领域的难题 端、边、云协同主要包括资源层面和服务层面的协同,不同协同模式在实际应用时均会面临挑战 ①协同调度需要获取端、边、云的状态信息,跨域、跨主体信息获取难度大 •端、边、云分属不同信息域,信息域内存在不同资源供给主体 •打破不同信息域的信息边界缺乏需求驱动,缺乏实际机制屏蔽差异性统一获取状态信息 •如即便在云计算信息域内,存在多家大中型云计算提供商,且信息不互通,难以实现跨资源供给主体的协同调度 ③对网络提出了新的需求,网络需增强服务能力 ②服务协同需要改动已有服务支持服务分解,但服务改动驱动力不足 •协同将单个服务分解为多个子服务分散部署,对服务提出新需求 •缺乏协同对服务性能提升的有效量化机制,服务侧改动现有机制的驱动力不足 •需均衡考虑协同各参与方的目标诉求,在提升性能的同时均衡各方诉求,以驱动服务协同 •同一个服务分散部署在端、边、云不同位置的服务流量特点不同,需提供差异化的网络服务 •协同拉长了服务提供环节,任一个环节的状态变化都需要网络灵活反应,对网、端、边、云的融合与协同提出新需求,保障服务一致性和稳定性;且有隐私性和安全性问题 ④需找到开销和性能提升的平衡点,目标场景仍需明确 •协同带来了性能提升的同时也引入了额外的开销等,需进一步量化分析开销,寻求性能提升和开销的均衡点 •需仔细论证现有研究假设,如端侧、边侧资源不足需要协同或云侧提供服务无法满足时延需求等问题在现网中的实际情况,避免“为了协同而协同”,需继续明确协同场景 5 算网一体——算力网络技术发展的方向 趋势:网络和计算需要一体化统筹考虑 •业务:网络和计算时延需求趋于同一数量级(<=10ms) •计算:大规模分布式计算等的通信问题成为瓶颈 •网络:从连接主机(互联网)向连接算力(算力网络)转变 优势:算网一体化可以提升系统整体性能和资源利用率 •通过泛在、平台化网络连接计算资源孤岛,提升资源利用率 •通过网络和计算因子的深度融合和一体化调度,实现低成本和高性能兼具 核心问题 •匹配的协议:大量数据如何长距离高吞吐传输,东数如何西送? •优化的路由:网络资源与计算资源的协同选择,业务在边边/边云之间调度 •高效的计算:能否网中算,如高性能计算能否卸载在网内? 6 目录 01 算力网络及算网一体 02 几个网络问题探索 03 智算DSN展望 7 1.如何设计匹配的协议?(1/2) 智算、超算业务对广域数据传输提出新的要求,在有损长肥网络中高效传输海量数据 科学计算、影视制作,云间灾备等亟需广域超高吞吐传输 数据量在TB/PB级别 天文观测:TB~PB/次基因测序:TB~100TB/次 影视渲染:10TB~100TB/节目 属于长肥网络(LFN) RFC1323,大BDP 网络传输带宽:>10Gbps传输时延:20ms~50ms 网络复杂多样,无法完全无损 链路层误码率不可避免 大象流负载不均,存在拥塞丢包多流竞争,存在微突发丢包 传统TCP协议在广域数据传输中吞吐受限,有效吞吐与链路时延、丢包率成反比 单流传输时,时延由1ms增加到10ms时,吞吐下降约10倍 1.22*MSSTCP网络吞吐=—————— RTT*Sqrt(L) RFC3649:HighSpeedTCPforLargeCongestionWindows 多流传输使得单流吞吐下降,且受主机CPU性能限制,同样存在吞吐瓶颈 8 1.如何设计匹配的协议?(2/2) 端网协同的广域高吞吐网络协议体系贵州到北京数据快递测试 数据源 (私有云/公有云) 广域高通量网络 云PE云PE超算中心 长肥管道 贵州FAST北京 数据源 (存储卡/磁盘) RoCE 协议优化 新型多路快速拥塞径传丢包控制输恢复 智算中心 •传输距离远:约2200km •链路时延长:RTT约45ms •链路带宽大:10Gbps 国家天文台 4个关键技术,实现广域高效数据传输 ①端侧RoCE协议优化,消除端侧吞吐瓶颈 •网络类型复杂:云专网、传输网、城域网、DC网络 数据传输测试结果 ②新型拥塞控制算法,提升网络有效利用率 ③丢包快速恢复算法,降低数据重传尾时延 传统TCP协议 单流435Mbps RoCE协议优化 单流7.36Gbps ④端到端多路径传输,实现带宽聚合与均衡 RoCE协议优化是传统TCP协议吞吐的16倍 9 2.路由转发中如何结合算力信息?(1/3) 问题:在对网络和计算都有高要求的场景中,算网的协同调度仍存在待优化的空间 AR/VR时延需要低于20ms保障用户体验,包括: •传感器采样延迟:<1.5ms(客户端) •显示刷新延迟:≈7.9毫秒(客户端) •GPU的帧渲染计算延迟≈5.5ms(服务器) 技术路径分析 1.当前缺乏将计算资源与网络状态相结合以决定最优路径和节点的方案。 2.现有的解决方案通常为off-path,如DNS、ALTO或L4/L7负载均衡,查询地址/状态的时延随着协议层的升高而升高! •网络延迟(预算)=20-1.5-7.9-5.5=5.1ms(网络) 观察1:计算延迟和网络延迟在同量级 •仅根据负载选择边缘站点1,总延迟≈22.4ms •仅根据网络选择边缘站点2,总延迟≈23.4ms •根据两者选择边缘站点3,总延迟≈19.4ms UpperL7Scheduler L7SchedulerL4Scheduler 数据库查询 重定向 观察2:仅根据网络或计算资源状态,找不到最佳服务器实例 结论:需要同时考虑网络和计算资源状态,将流量动态引导到适当的服务节点 IETF立项文稿:draft-ietf-cats-usecases-requirements L3CATS随路调度 结论:算力路由将具备更高的性能 IETF文稿:draft-draft-yao-cats-gap-analysis 在路由系统中引入计算因子,实现网络和计算的联合调度优化——算力路由 10 2.路由转发中如何结合算力信息?(2/3) 算力路由在路由系统引入计算信息,是对传统互联网设计理念的挑战 挑战1:算力建模和度量 算力信息维度较多,需要定义面向路由的高可用性计算信息,兼顾报文封装成本以及可用性 挑战2:算力感知和通告 通告频率越高,算力信息越实时,但开销越大,如何找到通告信令开销与信息实时性的平衡点 挑战3:多维路由选址 在距离矢量上叠加算力向量,改变了传统选路方法,简单叠加将导致路由不收敛 技术方向:简单高效的算力信息封装 统一量纲,使用与网络和业务相同的度量维度信息,应用于路由调度,例如通过BGPPathAttribution扩展封装计算时延信息 技术方向:自适应的算力通告 提出分域通告、分类通告,约束算力信息更新的范围,减少算力信息的无效通告 通过仿真建模量化分析算力信息通告信令开销的影响,得到通告信令开销与路由调度成功率的最优解 技术方向:新型算网多因子算路算法 构建算力路由信息表(CA-RIB),考虑距离因子、算力因子以及权重,生成算网cost=w1*网络cost+w2*算力cost 11 2.路由转发中如何结合算力信息?(3/3) 中国移动在IETF发起成立算力路由工作组(CATS,Computing-AwareTrafficSteering) 已经完成场景和需求立项,即将推动面向AI大模型的场景写入项目标准 基于CATS的分布式推理基于CATS+AI的内容获取 AI-basedMediaDistributionandTrafficSteering 推动CATS架构立项IngressCATS-Router: •CATSTrafficClassifier(C-TC):区分是否是CATS流量,决定服务节点 •CATSPathSelector(C-PS):选择网络转发路径 EgressCATS-Router: •CATSNetworkMetricAgent(C-NMA):收集和分发网络指标 •CATSServiceMetricAgent(C-SMA):收集和分发服务和计算指标 CATS-controlcenter: 数据中心多节点之间联合推理,基于CATS完成高效地计算和调度任务 阿里:draft-an-cats-usecase-ai 多边缘计算节点同时提供内容获取服务,基于CATS完成智能化的多媒体内容获取和调度 BBC:ai4me.surrey.ac.uk •CATSComputinginformationBase(C-CIB):维护细粒度的计算信息 •CATSNetworkMetricinformationBase(C-NIB):维护细粒度的网络信息 •CATSPathCalculationUnit(C-PCE):计算最合适的网络路径和选择服务节点 •CATS-SBIinterface:CATS-controlcenter与CATS-Router的接口 https://datatracker.ietf.org/wg/cats/document/12 12 3.如何高效的算? 需求:大规模AI计算集群通信瓶颈问题显著手段:引入在