联算网产业专标准协同发展C'NET 第二届粤港澳大湾区(广东)算力产业大会暨首届中国算力网大会 打造算网一体创新高地 推动算力网络纵深发展 中国移动段晓东 2023年5月 算力网络的发展回顾C'NET 中国移动充分发把握算力时代发展脉络,以网强算提出“算力网络”全新理念,一年多来持续开拓创新全力推进算力网络发展,在业界取得了广泛共识,引起了巨大反响 算力网络是以算为中心、网为根 融入新战略 开创新方向 迈向新征程 基,网、云、数、智、安、边、 发布新理念发布《算力网络技术 发布《算力网络创新成果》 端、链(ABCDNETS)等深度 提出新概念成为“5G+算力网络+ 白皮书》,提出十大 CFITI试验网与中国算力网、 融合、提供一体化服务的新型信杨杰董事长提出 发布中国移动《算 能力中台”新型信息基 技术方向 信息高铁三方互联,打造科 息基础设施。 “算力网络”概 念与愿景 力网络白皮书》和 发展倡议 础设施的关键一环学装置 中国移动《算力网络白皮书》 2021.8 2021.11 2022.1 2022.6 2022.12 算力网络发展路径'NET 算力网络的发展过程既有固网强基、从云向算的继往开来,也有技术创新的科学高峰,是工程+技术的有机结合 跨越阶段:一体内生 起步阶段:泛在协同发展阶段:融合统- 运营服务 一站服务:一站开通算网服务 融合服务:产品融合、确定性服务体服务:多层次智简无感服务 协同运营:云网运营双入口拉通统一运营:统一入口、统一平台模式创新:多方算力可信交易 编排管理协同编排智能编排智慧内生 基础设施网随算动算网融合算网一体 2021-2023 十四五阶段 2024-20252025 十五五阶段及更长期 推动算力网络体系化发展C'NET 中国移动从算网基础设施构建、业务融合创新、创新技术引领等多方面系统化推进算力网络建设和发展 主线一主线二主线三 面向算网基础设施构建面向业务融合创新面向创新技术引领 物理空间、逻辑空间、异构空间、多主实现算网高效协同,支持CHBN业实现创新技术引领,打造原创 体算力融通务融合发展,打造算网全新生态技术策源地 "4+N+31+X"布局,1000边缘节点产品算力化和算力产品化三横两纵体系架构 打造20ms、5ms、1ms三级时延圈发布算网服务1.0提出十大技术发展方向 SRv6/G-SRv6打造统一算网底座构筑算网大脑三十二个核心技术体系 推动算网一体原创技术C'NET 算力网络的发展是一个既往开来的重大工程,要持续提升发展的高度、广度和深度 提升高度拓展广度挖掘深度 打造新型智算中心创新广域算网一体开创多形态服务 新型智算为重点,构筑“通智超”多维多样化接入网络和算网联合优化调度推动技术要素、能力要素和资源要素从云边端多级、社会多元的泛在化算力使算力服务触手可及孤立向融合一体化发展 算网一体主要创新技术C'NET 攻关算网一体原创技术,推动实现算力无所不在,网络无所不达,智能无所不及 开创多形态服务 任务式服务数据快递算力并网数字李生网络 打造新型智算中心创新广域算网一体 算力原生全以太调度 算力路由 400G/800G 广域RDMA 存算一体在网计算 、打造新型智算中心,发展算力新高峰C'NET 智能算力将成为未来算力主流,中国移动加快发展智能算力, 以新型智算中心为发力点,打造算力高峰,推动算力网络实现智能跃迁 新型智算中心NICC效:高效节能控制 (NewIntelligentComputingCenter)管:异构算力池化 网:高速无损网络 以GPU、AI加速卡等智能集群算力为核心存:多元融合存储 集约化建设的E级超大规模新型算力基础设施 GPU集群算力 软硬件全栈环境,支撑AI大模型的高效训练新型智算中心 支撑行业数智化转型升级传统云数据中心 1、新型智算中心五大核心技术升级'NET 面向大模型孵化,五大核心技术全面升级,构建标准统一、技术领先、兼容开放的智算底座 传统云数据中心 算力以CPU为主,单机双路 单一存储协议,结构化数据为主 普通以太网络,10G/25GCPU虚拟化、容器化传统风冷,单机柜7KW 新型智算中心 GPU为主,单机8卡,扣卡互联,最高带宽600G NFS、Posix、S3多协议融合,海量非结构化数据 RoCE高速无损网络,200G/400G GPU池化,算力原生跨架构迁移冷板或浸没液冷,单机柜40KW 2、算力原生C'NET 中国移动原创提出算力原生技术,着力打造“芯合”算力原生跨架构平台,目标打破“框架+工具链+硬件”"紧耦合 的智算生态,屏蔽底层硬件差异,实现智算应用的跨架构迁移部署 应用层一智慧政务二智慧医疗智慧交通智慧能源应用层智慧交通手智慧能源 ·统一编程模型及源源转换 飞浆框架层 飞浆 1FTensorFlow Pytorch 基于SYCL的单源编程模型范式 框架层 1FTensorFlowPytorch 编程模型转换、编译、优化 ·跨架构综合编译机制 工具链 算多级IR互转,图算数融合编译优化 跨架构流转的原生程序 原生运行时程序加载原生程序格式规范 无法互识 力原生层 动态链接Host侧、Device侧指令元语及执 跨架构流转工具链行策略的一体承载 intel@nVIDIAHYGONCambricon 硬件层 HUAWEIintelCambricon·原生运行时算力抽象 硬件层CANNoneAPICUDAROCmNeuWare CANNoneAPICUDAROCmNeuWare跨厂商运行时接口/指令集的可变 粒度映射机制 繁几开发。复杂适配、各自为栈次开发跨芯迁移 ①发布《面向智算的算力原生白皮书》②OIF成立开源工作组,牵头国内外③打造“芯合”算力原生原型平原创提出“两层架构”和“三大核心技术”OpenInfrastructure多项标准立项台beta版,进行技术理念验证 三阶段发展路径:异构算力资源池化应用跨 架构迁移-全局泛在融通CCSA 牵头在OIF成立算力原生子工作组 牵头在ITU、CCSA进行标准立项 实现视频分析、图像识别两类智算应 用在GPUT4、MLU370间的跨架构9 部署迁移 3、存算一体'NET 传统架构AI芯片在高算力场景下能耗问题日益严峻,存算一体新范式突破访存瓶颈,实现计算能效 10~100倍提升,为新型智算中心提供高能效智能算力。中国移动攻关存算技术,构建存算一体产业生态 传统冯·诺依曼架构存算分离,存在“存储墙”瓶颈,发布业界首个《存算一体白皮书》,开展计算电路、芯片架构、软件工存算一体将存算单元深度融合,为计算架构提供更高能效,极具潜力具、算法/模型等关键技术攻关 冯·诺依 控制单元 计算单元 输入 存算一体 生态构建 曼架构 设备广功耗墙设备 存储单元行业呼:白皮书②产业合作 广义存&算存&算 存算一体白皮书 关键技术攻关 存算一体 算存存&算存&算计算电路芯片架构软件工具算法/模型 近存计算PNM 存内处理PIM存内计算CIM 联合产学研ZTE中兴Witmem (ProcessingNearMemory)(ProcessingInMemory)(ComputingInMemory) 10 4、全调度以太网'NET 全调度以太网突破智算中心网络性能瓶颈,打造无阻塞、高带宽及超低时延的新型智算中心网络 构建标准开放技术体系,助力产业发展 与传统以太网相比,全调度以太网主要有分发粒度、发流模式及管控模式三大机制变化,实现高效、精确和可靠的网络分发发流管控 粒度模式机制 从“流”分发到“容器”分发从“推流到“拉”流从分布式管控到集中式管理 基于虚拟容器的逻辑转发单元,VOQ调度,最大限度避免拥塞集中式全局网络信息维护及调度 ·逐“容器”的动态负载均衡机制精细反压机制,避免HOL等问题分布式管理面、控制面及数据面 发布业界首个《全调度以太网技术架构自皮书》,展开芯片、协议、设备、管控及架构等关键技术攻关 中国移动携手中国信通院、腾讯、鹏城实验室、清华大学、华为、中兴、锐捷、新华三、中信科、思博伦、 Intel、Marvell、盛科等十余家合作伙伴,联合发布《全调度以太网技术架构白皮书) 11 创新广域算网一体,开拓发展新广度'NET 算力多地域联动、多主体供给需要网络高效协同,面向东数西算、智算互联等关键场景极致互联需求 构建算网一体高性能互联底座,实现算网资源联合感知与融合调度 联合感知融合选路算力路由突破互联网架构协议,距离向量叠加算力向量,整体优化算网资源 网络算力前提调度成本、系统能效 状态负载资源利用率..全光网络简化网络转发,以光纤为基础构成大吞 从单技术域向算网双域相 从单一目标选路向多目标 吐通信网络 互感知信息综合求解优化 支撑作用 极致互联 QPSK新调制新型拥塞控制数据加密 广域RDMA 在网计算 突破广域传输性能瓶颈 实现RDMA高效传输拉远 打破算网边界,网络内生算力 从尽力而为向低时延无损、高通量可靠演进计算任务跨网络节点分布式协同 12 、算力路由(CATS)NET 创新提出算力路由体系,将算力信息引入路由域,通过统一控制和调度实现算网资源的全局优化,提供极致体验 算力路由的提出算力路由组网架构算力路由协议簇 ①发现问题 云边以及边边调度之间出现“性能反转' ④控制器①CA-BGP:采集算力信息,通过扩展BGP协议进行通告 ? 算力信息通告②CA-BGP-LS:出口节点向算力控制节点通告算力状态信息 ②问题本质 功路由出口节点算力节点 ③CA-OSPF:在域内泛洪算力信息为路由提供参考 计算和网络是独立系统AS域 算的负载和网的拥塞信息没有产生关联 算力路由入口节点2 ③解决思路算力信息通告婴婴 在路由中引入计算信息,进行联合调度算力路由出口节点算力节点 @CA-Netconf/yang:通过Netconf协议下发Yang模型算力配置 ③CA-Restful/json:通过restful协议接口收集Json消息算力信息 历时4年推动IETF成立算力路由工作组CATS,中国移动担任主席 2019~2022年5次研讨会2023年3月CATSWG成立暨首次会议工作组范畴和计划 是路由域最受欢迎的工作组之一 13 2、400G/800GNE 面向“东数西算”,发布世界最长距离无电中继400G光传输现网技术试验网络,实现跨浙、赣、湘、黔四省的 骨干网400GQPSK信号5616km实时现网传输,为构建算力网络的大带宽、低时延全光底座打下坚实基础 新调制新波段新器件 从QPSK向16QAM、16QAM-从C波段向C+L波段扩展,光从34G向130G波特率调制器 PCS、QPSK等多种码型竞争层系统需支持新波段等高性能器件 全新挑战 OSNR容限劣化6dB波段范围增加200%器件带宽提升近3倍 全新记录 V2021:当时单载波800G实时传输距离世界纪录(1122km,ECOC2021,We3C1.5) V2022:多子载波800G实时传输距离世界纪录(2018km,ECOC2022,Tu1A.1,Top-scored)V2023:400GQPSK实时现网传输距离世界纪录(5616km)V2023:400GQPSKC6T+L6T满波加载传输距离世界纪录(7000km,投稿ECOC2023) 明确了400GQPSK是采用C6T+L6T波段实沿用现有光层基础设施满 长距离骨干技术方案现80波大容量系统足长距离传输需求14 3、广域RDMA(WTSN)'NET 提出广域RDMA技术(WTSN),面向东数西算、数据异地上云等海量数据广域高质量传输需求,实现高吞吐 高可靠、低时延、低算力损耗2高2低特性的算网高性能互联网络 域网TCP传输春吐受限广域RDMA技术(WTSN) 时延由1ms增加到 10ms时,吞吐下 降10倍 4个关键技术,实现长距高吞吐传输 ①新型拥塞控制算法,提升吞吐,降低丢包 ②丢包快速恢复算法,减少重传,降低时延 ③丢包精确重传机制,实现RDMA有损部署 Protoco UserDatagramProtocol WANCongestContrc