您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中国移动]:打造算网一体创新高地,推动算力网络纵深发展 - 发现报告
当前位置:首页/行业研究/报告详情/

打造算网一体创新高地,推动算力网络纵深发展

2023-06-07-中国移动枕***
打造算网一体创新高地,推动算力网络纵深发展

打造算网一体创新高地 推动算力网络纵深发展 中国移动段晓东 2023年5月 1 算力网络的发展回顾 2 算力网络发展路径 起步阶段:泛在协同发展阶段:融合统一 跨越阶段:一体内生 运营服务 编排管理 一站服务:一站开通算网服务协同运营:云网运营双入口拉通 协同编排 融合服务:产品融合、确定性服务统一运营:统一入口、统一平台 智能编排 一体服务:多层次智简无感服务模式创新:多方算力可信交易 智慧内生 基础设施 2021-2023 网随算动 十四五阶段 算网融合 2024-20252025~ 算网一体 十五五阶段及更长期 3 推动算力网络体系化发展 中国移动从算网基础设施构建、业务融合创新、创新技术引领等多方面系统化推进算力网络建设和发展 主线一 面向算网基础设施构建 主线二 面向业务融合创新 主线三 面向创新技术引领 物理空间、逻辑空间、异构空间、多主体算力融通 “4+N+31+X”布局,1000边缘节点打造20ms、5ms、1ms三级时延圈SRv6/G-SRv6打造统一算网底座 实现算网高效协同,支持CHBN业务融合发展,打造算网全新生态 产品算力化和算力产品化发布算网服务1.0 构筑算网大脑 实现创新技术引领,打造原创技术策源地 三横两纵体系架构提出十大技术发展方向三十二个核心技术体系 4 推动算网一体原创技术 算力网络的发展是一个既往开来的重大工程,要持续提升发展的高度、广度和深度 提升高度拓展广度挖掘深度 打造新型智算中心创新广域算网一体开创多形态服务 新型智算为重点,构筑“通智超”多维、云边端多级、社会多元的泛在化算力 多样化接入网络和算网联合优化调度,使算力服务触手可及 推动技术要素、能力要素和资源要素从孤立向融合一体化发展 5 算网一体主要创新技术 攻关算网一体原创技术,推动实现算力无所不在,网络无所不达,智能无所不及 深 开创多形态服务 任务式服务数据快递算力并网 高 打造新型智算中心 算力原生全以太调度存算一体 数字孪生网络 广 创新广域算网一体 算力路由400G/800G 广域RDMA 在网计算 6 一、打造新型智算中心,发展算力新高峰 智能算力将成为未来算力主流,中国移动加快发展智能算力, 以新型智算中心为发力点,打造算力高峰,推动算力网络实现智能跃迁 新型智算中心NICC ( 效:高效节能控制管:异构算力池化 以GPU、AI加速卡等智能集群算力为核心集约化建设的E级超大规模新型算力基础设施,软硬件全栈环境,支撑AI大模型的高效训练, 支撑行业数智化转型升级 网:高速无损网络存:多元融合存储 算:GPU集群算力 新型智算中心 传统云数据中心 7 1、新型智算中心五大核心技术升级 面向大模型孵化,五大核心技术全面升级,构建标准统一、技术领先、兼容开放的智算底座 传统云数据中心 算算力以CPU为主,单机双路存单一存储协议,结构化数据为主网普通以太网络,10G/25G管CPU虚拟化、容器化 效传统风冷,单机柜7KW 新型智算中心 GPU为主,单机8卡,扣卡互联,最高带宽600GNFS、Posix、S3多协议融合,海量非结构化数据RoCE高速无损网络,200G/400G GPU池化,算力原生跨架构迁移冷板或浸没液冷,单机柜40KW 8 2、算力原生 中国移动原创提出算力原生技术,着力打造“芯合”算力原生跨架构平台,目标打破“框架+工具链+硬件”紧耦合 的智算生态,屏蔽底层硬件差异,实现智算应用的跨架构迁移部署。 算力原生层 应用层框架层 Pytorch…… 编程模型转换、编译、优化 跨架构流转的原生程序 •统一编程模型及源源转换 基于SYCL的单源编程模型范式 •跨架构综合编译机制 多级IR互转,图算数融合编译优化 工具链硬件层 CANN 原生运行时 oneAPICUDA 程序加载动态链接 NeuWare ROCm…… •原生程序格式规范 Host侧、Device侧指令元语及执行策略的一体承载 •原生运行时算力抽象 跨厂商运行时接口/指令集的可变粒度映射机制 繁冗开发、复杂适配、各自为栈一次开发、一次封装、跨芯迁移 应用层 框架层 Pytorch …… 工具链 X X X X 无法互识 跨架构流转 硬件层 CANN oneAPI CUDA ROCm NeuWare …… ①发布《面向智算的算力原生白皮书》 原创提出“两层架构”和“三大核心技术” 三阶段发展路径:异构算力资源池化-应用跨架构迁移-全局泛在融通 ②OIF成立开源工作组,牵头国内外多项标准立项 牵头在OIF成立算力原生子工作组牵头在ITU、CCSA进行标准立项 ③打造“芯合”算力原生原型平台beta版,进行技术理念验证 9 实现视频分析、图像识别两类智算应用在GPUT4、MLU370间的跨架构部署迁移 3、存算一体 传统冯·诺依曼架构存算分离,存在“存储墙”瓶颈, 存算一体将存算单元深度融合,为计算架构提供更高能效,极具潜力 发布业界首个《存算一体白皮书》,开展计算电路、芯片架构、软件工具、算法/模型等关键技术攻关 冯·诺依曼架构 存算一体生态构建 ①行业呼吁:白皮书②产业合作 广义 存算一体算存算存 存&算存&算 存&算存&算 关键技术攻关 计算电路 芯片架构软件工具算法/模型 近存计算PNM 存内处理PIM 存内计算CIM 联合产学研 (ProcessingNearMemory)(ProcessingInMemory)(ComputingInMemory) 10 4、全调度以太网 全调度以太网突破智算中心网络性能瓶颈,打造无阻塞、高带宽及超低时延的新型智算中心网络,构建标准开放技术体系,助力产业发展 与传统以太网相比,全调度以太网主要有分发粒度、发流模式及管控模式三大机制变化,实现高效、精确和可靠的网络 从“流”分发到“容器”分发 •基于虚拟容器的逻辑转发单元 •逐“容器”的动态负载均衡机制 从“推”流到“拉”流 •VOQ调度,最大限度避免拥塞 •精细反压机制,避免HOL等问题 从分布式管控到集中式管理 •集中式全局网络信息维护及调度 •分布式管理面、控制面及数据面 发布业界首个《全调度以太网技术架构白皮书》,展开芯片、协议、设备、管控及架构等关键技术攻关 中国移动携手中国信通院、腾讯、鹏城实验室、清华大学、华为、中兴、锐捷、新华三、中信科、思博伦、Intel、Marvell、盛科等十余家合作伙伴,联合发布《全调度以太网技术架构白皮书》 11 二、创新广域算网一体,开拓发展新广度 算力多地域联动、多主体供给需要网络高效协同,面向东数西算、智算互联等关键场景极致互联需求,构建算网一体高性能互联底座,实现算网资源联合感知与融合调度 联合感知 网络算力前提 状态负载 从单技术域向算网双域相互感知信息 融合选路 调度成本、系统能效资源利用率... 广域RDMA 从单一目标选路向多目标综合求解优化 算力路由全光网络 突破互联网架构协议,距离向量叠加算力向量,整体优化算网资源 简化网络转发,以光纤为基础构成大吞吐通信网络 支撑作用 极致互联 突破广域传输性能瓶颈,实现RDMA高效传输拉远 QPSK新调制新型拥塞控制 数据加密 在网计算打破算网边界,网络内生算力, 从尽力而为向低时延无损、高通量可靠演进 计算任务跨网络节点分布式协同 12 1、算力路由(CATS) 创新提出算力路由体系,将算力信息引入路由域,通过统一控制和调度实现算网资源的全局优化,提供极致体验 算力路由的提出 ①发现问题 云边以及边边调度之间出现“性能反转” ②问题本质 计算和网络是独立系统 算的负载和网的拥塞信息没有产生关联 ③解决思路 在路由中引入计算信息,进行联合调度 算力路由组网架构 算力路由协议簇 ①CA-BGP:采集算力信息,通过扩展BGP协议进行通告 ②CA-BGP-LS:出口节点向算力控制节点通告算力状态信息 ③CA-OSPF:在域内泛洪算力信息为路由提供参考 ④CA-Netconf/yang:通过Netconf协议下发Yang模型算力配置 ⑤CA-Restful/json:通过restful协议接口收集Json消息算力信息 历时4年推动IETF成立算力路由工作组CATS,中国移动担任主席 2019~2022年5次研讨会2023年3月CATSWG成立暨首次会议,是路由域最受欢迎的工作组之一 工作组范畴和计划 13 2、400G/800G 面向“东数西算”,发布世界最长距离无电中继400G光传输现网技术试验网络,实现跨浙、赣、湘、黔四省的骨干网400GQPSK信号5616km实时现网传输,为构建算力网络的大带宽、低时延全光底座打下坚实基础 全新调制 新 挑 新波段 新器件 战OSNR容限劣化6dB波段范围增加200% 器件带宽提升近3倍 全新记录 2021:当时单载波800G实时传输距离世界纪录(1122km,ECOC2021,We3C1.5) 2022:多子载波800G实时传输距离世界纪录(2018km,ECOC2022,Tu1A.1,Top-scored) 2023:400GQPSK实时现网传输距离世界纪录(5616km) 5616km宁波-贵安-宁波现网试点拓扑结构 2023:400GQPSKC6T+L6T满波加载传输距离世界纪录(7000km,投稿ECOC2023) 1明确了400GQPSK是长距离骨干技术方案 2采用C6T﹢L6T波段实现80波大容量系统 3沿用现有光层基础设施满 足长距离传输需求14 3、广域RDMA(WTSN) 提出广域RDMA技术(WTSN),面向东数西算、数据异地上云等海量数据广域高质量传输需求,实现高吞吐、高可靠、低时延、低算力损耗2高2低特性的算网高性能互联网络 广域网TCP传输吞吐受限 广域RDMA技术(WTSN) Application 4个关键技术,实现长距高吞吐传输 ①新型拥塞控制算法,提升吞吐,降低丢包 ②丢包快速恢复算法,减少重传,降低时延 ③丢包精确重传机制,实现RDMA有损部署 ④数据安全加密协议,实现数据高安全传输 RDMAAPI(Verbs) WANCongestControl RoCETransport Protocol LossPacketRecover PacketPreciseRetransmit SecureDataTransmissionUserDatagramProtocol InternetProtocol EthernetLink Software Hardwar IBTA Stack 时延由1ms增加到10ms时,吞吐下降10倍 e TCP/IPStack 原生RDMA丢包敏感,难以直接用于广域网 产学研协同合作 标准引领牵头CCSATC3行标《承载RMDA的广域网技术要求》 原型验证基于中国移动算力网络试验网开展WTSN-Beta版原型验证 丢包率达到0.5%时,吞吐下降为0 15 三、开创多形态服务,探索要素融合新深度 数智化转型需要丰富多样、多元灵活、智慧高效的计算服务,中国移动从服务模式、服务业态、服务中枢三个方面持续探索要素融合新深度,推动算力“即取即用”目标愿景达成 任务式服务(TaaS):业务需求自动解析,多要素融合一体化供给 算力并网:汇聚超算、智算、三方公有云,小型三方算力,社会闲散算力 算网数字孪生:构建算网孪生体,实现虚实映射,全生命周期调配优化 16 1、任务式服务(TaaS) 以智能极简任务式服务实现数据快递,使能海量数据长距传输即送即达,满足数据高效低成本搬运和安全迁移的需求 多 数据量大TB~PB/次 快 专线传输小时达 好 数据可靠安全加密 省 综合成本低 一站式服务 任务下发 数据源 (私有云/公有云) 运营平台算网大脑 资源自动分配 广域互联 云PE云PE 弹性带宽负载均衡安全加密 智算/超算中心 小时达 超高带宽实时传输数十TB/小时 当日达 聚合空闲带宽实时传输数百G~数TB/小时 次日达 夜间空闲带宽错峰传输数十TB/小时 数据源 (存储卡/磁盘) 数据快递站 (机房/

你可能感兴趣

hot

打造算网一体创新高地,推动算力网络纵深发展

信息技术
中国移动研究院2023-06-29
hot

存算一体助力算力网络创新发展

中国移动研究院2023-08-15
hot

段晓东:算网一体定义算力网络未来

信息技术
中国移动研究院2023-12-28