算网一体定义算力网络未来 段晓东中国移动 通信网络新型信息通信网络 网络为核心的信息交换 提供语音、短信、移动宽带等通信服务 算力为核心的信息数据处理 提供计算、感知、智能、安全等一体化的新一代信息通信服务 架构范式 技术范式 资源范式 产业范式 中国移动深刻把握算力时代发展脉搏,发挥运营商网络领先优势,以网强算提出“算力网络”全新理念。两年来,继往开来、开拓创新,全力推进算力网络发展 算力网络是以算为中心、 网为根基,网、云、数、智、安、边、端、链 (ABCDNETS)等深度融合、 提供一体化服务的新型信息基础设施。 ——中国移动《算力网络白皮书》 打造新平台 融入新战略 开创新方向 发布新理念 提出新概念 启动算力网络试验 网CFITI1.0,发 布算网服务体系1.0 构建新装置 发布《算力网络科技创新成果》,CFITI试验网与中国算力网、中科院信息高铁联合打造科学装置 组建新战队 算力网络子链组建14支攻关战队联合攻关产业问题 杨杰董事长提出 “算力网络”概念与愿景 发布中国移动《算 力网络白皮书》和发展倡议 成为“5G+算力网络 +能力中台”新型信息基础设施的关键一环 发布《算力网络 技术白皮书》,提出十大技术方向 5G 算力 网络 智慧 中台 算为核心,网为根基,算力与网络的融合体现在“以算促网”和“以网强算”两个方面,二者“双向驱动”,算网交叉融合创新成为发展新范式 网络演进需求算力发展需求 从通信服务向新型信息通信服务转变 性能代际提升对算力提出更高要求 单一速率范式制约网络规模发展 摩尔定律下单点算力面临性能瓶颈 多样性算力需要异构融通、互补协同 泛在算力闲散分布,需要高效集约利用 研判:算和网已经呈现双向驱动趋势,为了进一步呈现整体的能效、性能和利用率优势, 需要算网一体化的系统思维和多学科交叉创新 算网一体=F(Computing,Network) 必要条件:Network,Computing互相影响 充分条件:F(Computing,Network)>=F(Computing)+F(Network) 限制条件:有限的Computing资源,和有限的Network资源 优化目标:=G(能效、性能、利用率) 能效 网络 算力 利用率性能 走过算力网络“泛在协同”的重要阶段,迈入“融合统一”的发展新阶段 跨越:一体内生 发展:融合统一 起步:泛在协同 一体服务,模式创新 融合服务、统一运营 一站服务、协同运营 智慧内生 协同编排网随算动 算网融合智能编排 算网一体 算网一体原创技术深度赋能算网基础设施、编排管理、运营服务多层次一体化发展 设备一体 协议一体架构一体 服务一体 以外挂或内嵌/内生的方式,形成“算力感知”、“网络感知”或“转发即计算”的计算形态,构建异构融合的设备硬件 支持算力、网络、应用等多维资源感知和调度的新协议,可通过网络协议扩展并携带计算信息,或者定义新型协议 构建统一编程范式和异构算力抽象机制,形成一体编译链接、跨架构动态运行的基础软件架构,实现应用跨架构无感迁移 网络和计算服务统一入口,通过能力的相互补充和调用,面向用户提供无感知的网络和计算服务 算力网络是算网交叉学科创新的重大契机。为构筑算力网络发展源动力,开创算网一体原创技术体系,已形成一批标志性的原创技术 总线互联 卡间高速通信 算力路由 突破互联网架构协议 数据快递 突破广域传输性能瓶颈 全调度以太 突破无损以太性能瓶颈 新一代SD-WAN Under与Overlay协同 算力并网 实现算力供给侧改革 算力智能内生 计算要素创智能服务 移动算力 5G、6G新增计算面 算力原生 实现应用跨架构迁移 存算一体 突破冯氏架构 算力度量 打破单维算力指标 在网计算 打破算网边界 隐私计算 安全数据分析计算 算力卸载 多算力形态统一底座 400G/800G 超高速大容量全光网络 G-SRv6 统一IP承载协议 空芯光纤 新型光纤介质与系统 算力解构 应用模块化解构部署 50GPON+FTTR 新型接入网架构 云原生 敏捷高效体系 OTN光电联动 新型全光网架构 全光接入 新型接入网架构 应用感知 应用类型识别 空天地一体 突破异构算网融合 算网一体“5颗珍珠”:算力原生、全调度以太、算力路由、在网计算、数据快递 1 ①算力路由CATS 突破互联网架构协议 面向网络和计算的联合优化问题 基于互联网协议体系,在路由中引入算力因子,开创算力路由协议,实现距离向量和计算向量在路由技术的叠加,满足新型业务网络和计算的时延需求。 2 ②全调度以太GSE 突破无损以太性能瓶颈 构筑新型智算中心的问题 传统无损以太存在性能天花板,网络技术成为AI算力瓶颈,通过创新以太网转发机制,以网强算构建无阻塞、高带宽、低时延的新型智算中心网络。 3 ③数据快递GSN 突破广域传输性能瓶颈 大规模数据广域高效传输的问题 针对传统协议吞吐随着传输距离、丢包率增加而急剧下降问题,设计新型可靠传输协议,实现长肥网络下超高吞吐数据传输。 算力路由将算力因子引入路由域,实现网络和计算的联合优化,克服面向边缘计算的“性能反转”问题,满足时延和计算敏感新型业务需求 典型场景1:Computing-AwareAR/VR典型场景2:Computing-AwareV2X AR/VR时延需要低于20ms保障用户体验,包括: •传感器采样延迟:<1.5ms(客户端) •显示刷新延迟:≈7.9ms(客户端) •GPU的帧渲染计算延迟≈5.5ms(服务器) •网络延迟(预算)=20-1.5-7.9-5.5=5.1ms(网络) •观察1:计算延迟和网络时延在同量级 •观察2:仅根据网络或计算负载选择服务节点,总时延无法满足 •观察3:根据两者选择边缘站点3,总延迟≈19.4ms •通过算力路由在本地优先处理低时延业务(如辅助驾驶业务),保证其用户体验和可用性 •将时延不敏感业务(如车载娱乐业务)从本地调度到远端 结论:需要同时考虑网络和计算资源状态,进行路由协议层面的联合优化 算力路由需要解决算力扩展、算力信息通告、多因子路由求解等多方面的问题,实现基于网络因子和计算因子的联合路由 问题1:算力度量问题 算力信息维度较多,需要定义面向路由调度的高可用性计算信息,兼顾报文封装成本以及可用性 问题2:合理的算力信息通告问题 通告频率越高,算力信息越实时,但开销越大,如何找到通告信令开销与信息实时性的平衡点 问题3:路由求解,多维因子路由优化问题 在距离矢量上叠加算力向量,改变选路方法,影响路由决策。简单叠加将导致路由不收敛 技术方向:简单高效的算力信息封装 提出分域通告、分类通告,约束算力信息更新的范围,减少算力信息的无效通告。通过仿真建模量化分析算力信息通告信令开销的影响 统一量纲,使用与网络和业务相同的度量维度信息,应用于路由调度,例如通过BGPPathAttribution扩展封装计算时延信息 技术方向:自适应的算力通告 构建算力路由信息表(CA-RIB),考虑距离因子、算力因子以及权重,生成算网cost=w1*网络cost+w2*算力cost 技术方向:新型算网多因子算路算法 E B A C 算力节点 能力通告 网络节 点 E B 连接算力AC 的网络节 点 算力节点状态通告 E B A C 网络节 点 连接算力的网络节点 网络节点 网络拓扑算力网络节点拓扑算力网络状态拓扑 2019~2022年5次研讨会 2023年3月CATSWG成立暨首次会议, 是路由域最受欢迎的工作组之一 完成场景和需求立项 历经4年,中国移动在IETF发起成立算力路由工作组(CATS,Computing-AwareTrafficSteering),中国移动担任主席,是IETF路由域近20年由中国高校/公司牵头成立的两个工作组之一 推动面向AI大模型的算力路由场景写入CATSWG标准 完成实验系统,验证全局时延优化上约30%的性能提升 基于CATS的分布式推理 基于CATS+AI的内容获取 AI-basedMediaDistributionandTrafficSteering 合力攻关算力路由技术,围绕IETFCATS构建标准体系,推动产业生态加速构筑领先优势 AI大模型以GPU集群分布式训练为基础,带来大量节点间通信消耗,网络成为AI算力“瓶颈”智算中心建设进入快车道,网络技术发展已滞后于AI模型演进,新型AI网络方案成为业界创新焦点 集群有效算力∝{GPU单卡算力*总卡数*线性加速比*有效运行时} 网络设备能力决定GPU集群组网规模 芯片容量提升2倍,组网规模提高4倍 网络性能决定GPU集群算力加速比 GPU集群性能≠单GPU性能*N 网络可用性决定GPU集群稳定性 2%的丢包就会使RDMA吞吐率下降为0 随着GPU单卡算力受限,获得同等算力的难度持续增加,以网强算成为提升大模型训练效率的关键 中国移动提出全调度以太网(GSE)技术架构,最大限度兼容以太网生态,创新基于报文容器(PKTC)的转发及调度机制,构建无阻塞、高带宽、低时延的新型智算中心网络,形成标准开放的技术体系,助力AI产业发展 创新以太网转发机制,实现三大核心机制转变 从“流”分发到“报文”分发 从盲发+被动控制到感知+主动控制 从“局部”决策到“全局”调度 将业务流拆分到不同“报文容器”转发,提供逐“报文容器”负载均衡机制,提升带宽利用率 从被动拥塞控制,到基于“授权请求和响应机制”的主动流控,最大限度避免网络拥塞产生 全局视野的转发调度机制,实现集中式管理运维、分布式控制转发,提高网络可用性 拥塞 Spine 目的leaf Spine Spine 321 3 2 1 3 2 1 源leaf 3 2 1 3 2 1 3 2 1 321 丢包 21 321 当前:逐流负载,链路利用率低、发生拥塞被动降速未来:逐报文容器转发,链路负载均衡,全局调度,避免拥塞 中国移动携手中国信通院,联合国内外三十余家主流互联网,设备商、芯片商、高校院所联合发起GSE推进计划,推动智算中心网络技术创新、标准完善和产业应用,打造高速无损、开放兼容的新型智算中心网络技术体系 2023.5 2023.6 2023.8 2023.9 2023.11 云网智联大会发布 《全调度以太网技术架构》白皮书 CCSA成功立项 《全调度以太网总体技术要求》 中国算力大会正式启动 全调度以太网(GSE)推进计划 中国网络大会发布 业界首款GSE原型系统 ODCC冬季全会GSE工作组成立 及第一次工作组会议 低延迟FEC、光交换、故障快速检测、400G/800G以及更高速率接口物理层扩展等 物理层 全调度以太网(GSE)特设组研究范畴 改进的PFC、GSE高级调度技术、链路级安全、链路级容错等 改进的RDMA、新型拥塞控制协议、网络多路径能力、乱序重排、选择性重传等 运维和管理体系 数据链路层 传输协议层 中国移动,中国信息通信研究院,中国广电、华为、盛科、中兴、锐捷、新华三、浪潮信息、Intel、Broadcom、清华大学、上海交通大学、鹏城实验室、紫金山实验室、北京邮电大学、中科院计算机网络信息中心、中信科、Spirent、是德科技、云合智网、楠菲微电子、燧原科技、昆仑芯、迈普,星云智联、云脉芯联、中科驭数、云豹智能、大禹智芯、中盈优创等四十余家产学研机构及厂商 全调度以太网(GSE)合作伙伴 端到端网络可视化、可调试能力、部署/运维/变更/故障恢复等多维自动化能力 网络层 新型网络拓扑、新型路由协议、新型组播协议等 算力分布的不均衡以及智算、超算业务的蓬勃发展对广域数据传输提出更高要求,中国移动提出“数据快递”技术体系,充分利用高带宽网络实现高吞吐数据传输 数据量大 单次传输在TB级别天文观