您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中国移动研究院]:发展新型智算中心-打造智能算力网络 - 发现报告
当前位置:首页/行业研究/报告详情/

发展新型智算中心-打造智能算力网络

信息技术2023-09-27段晓东中国移动研究院M***
发展新型智算中心-打造智能算力网络

发展新型智算中心打造智能算力网络 段晓东 中国移动研究院 中国移动算力网络发展历程回顾 算力网络发展主线 中国移动从算网基础设施构建、业务融合创新、创新技术引领等多方面系统化推进算力网络建设和发展 主线一 面向算网基础设施构建 物理空间、逻辑空间、异构空间、多主体算力融通 “4+N+31+X”布局,1100边缘节点打造20ms、5ms、1ms三级时延圈SRv6/G-SRv6打造统一算网底座 主线二 面向业务融合创新 实现算网高效协同,支持CHBN业务融合发展,打造算网全新生态 产品算力化和算力产品化发布算网服务1.0 构筑算网大脑 主线三 面向创新技术引领 实现创新技术引领,打造原创技术策源地 三横两域体系架构提出十大技术发展方向 三十二大核心技术 继往开来,成功迈入算力网络新阶段 起步:泛在协同 一站服务、协同运营 协同编排网随算动 发展:融合统一 融合服务、统一运营 算网融合智能编排 跨越:一体内生 一体服务,模式创新 智慧内生算网一体 十四五阶段 2021-20232024-20252025~ 十五五阶段及更长期 构筑算力网络发展源动力,开创算网一体原创技术体系 算力网络是算网交叉学科创新的重大契机,目标远大必付之全力。为构筑算力网络发展源动力,实现算网新服务的目标愿景,中国移动开创算网一体原创技术体系,联合产业一道形成一批我国原创技术 总线互联 卡间高速通信 算力路由 突破互联网架构协议 广域RDMA 突破广域传输性能瓶颈 全调度以太 突破无损以太性能瓶颈 新一代SD-WAN Under与Overlay协同 算力并网 实现算力供给侧改革 算力智能内生 计算要素创智能服务 移动算力 5G、6G新增计算面 算力原生 实现应用跨架构迁移 存算一体 突破冯氏架构 算力度量 打破单维算力指标 在网计算 打破算网边界 隐私计算 安全数据分析计算 算力卸载 多算力形态统一底座 400G/800G 超高速大容量全光网络 G-SRv6 统一IP承载协议 空芯光纤 新型光纤介质与系统 算力解构 应用模块化解构部署 50GPON+FTTR 新型接入网架构 云原生 敏捷高效体系 OTN光电联动 新型全光网架构 全光接入 新型接入网架构 应用感知 应用类型识别 空天地一体 突破异构算网融合 原创技术“5颗珍珠”:算力原生、算力路由、全调度以太、在网计算、G-SRv6 算力路由(CATS) 算力路由的提出 算力路由组网架构 ②CA-BGP-LS:出口节点向算力控制节点通告算力状态信息 ①CA-BGP:采集算力信息,通过扩展BGP协议进行通告 ③CA-OSPF:在域内泛洪算力信息为路由提供参考 ⑤CA-Restful/json:通过restful协议接口收集Json消息算力信息 ④CA-Netconf/yang:通过Netconf协议下发Yang模型算力配置 ①发现问题 云边以及边边调度之间出现“性能反转” ②问题本质 计算和网络是独立系统 算的负载和网的拥塞信息没有产生关联 ③解决思路 在路由中引入计算信息,进行联合调度 历时4年推动IETF成立算力路由工作组CATS,中国移动担任主席 算力路由协议簇 2019~2022年5次研讨会2023年3月CATSWG成立暨首次会议,是路由域最受欢迎的工作组之一 目前已经完成工作组首个立项:CATS问题分析、场景及需求 工作组范畴和计划 聚力“高、广、深”,实现新发展 推动算力成为与水电一样,“一点接入、即取即用”社会级服务 最终实现“网络无所不达、算力无所不在、智能无所不及”的愿景 提升高度拓展广度挖掘深度 算为中心① 打造算力供给高峰 网为根基② 实现深度融合统一 多要素融合③ 开创一体化服务④模式 以算为中心①、网为根基②,网、云、数、智、安、边、端、链等深度融合③、提供一体化服务④的新型信息基础设施 打造智能算力新高峰——NICC新型智算中心 新型智算中心 以高性能GPU、AI加速卡为中心,以高速互联智算集群为目标, 形成集约化建设的E级超大规模算力基础设施, 具备软硬件AI全栈环境,支撑AI大模型的高效训练和推理 新互联 新算效 新存储 新平台 新节能 异构时期(~2021) 中小模型 PCIe 25G传统以太 独立存储 风冷 裸机/虚机/容器 1、新型智算中心是对传统云数据中心的飞跃 在新互联、新算效、新存储、新平台、新节能等五大方面进行系统性重构,推动 集群时期(~2025) 中大模型(百亿-千亿) 互联 单机8卡高速互联 高性能无损网络 算效 扣卡模组 DPU 存储 海量非结构化数据,融合存储 平台 算力池化,分布式训练 节能 单机柜40KW,冷板式液冷 NICC新型智算中心 超级池化时期(2025~) 大模型(千亿-万亿) 传统云数据中心 百卡高速总线互联 GSE 存算一体 内存池化 算力原生 冷板/浸没式液冷 智算运维 运维管理模块 开发管理交付管理 IaaS管理模块 虚机容器裸机 存储 网络 2、NICC新型智算中心的架构 AI开发框架 应用使能 TesnsorFlow PyTorch PaddlePaddle DeepSpeed ... 强化互联技术、深化算力协同、定义新型存储、新增算力原生、升级绿色节能构建标准统一、技术领先、软硬协同、兼容开放的NICC新型智算中心技术体系 智算运营 运营管理模块 算力原生 编排调度计量计费 跨架构编译器算力抽象运行时 算力交易用户界面 智算平台 ROCm CUDA CANN ... 平台 跨节点分布式 训练调度 裸金属实例 Hypervisor+ 虚拟机实例 容器实例 算效 互联 计算网络 存储 存储 基础设施 CPUGPUDPUCIM RoCE 文件对象块内存池 高速互联计算总线 GSE 融合存储 全局统一存储 节能 机房配套 液冷 高效供电 冷却水系统 0 1 2 3 0 12 1 2 3 4 5 6 7 4 56 7 4 5 6 7 01 2 3 0 1 2 3…0 1 2 3 45 6 7 4 5 6 7 4 5 6 7 3-1、NICC新互联——高速互联计算总线 基于高速计算总线的S²的架构 计算总线 总线 Switch 总线 Switch 总线 Switch 总线Switch 总线Switch 总线Switch 总线Switch 012345...N 012345...N 一组有N张GPU/AI卡 一组有N张GPU/AI卡 更低延迟的内部通信 更高效的数据读写 更灵活的拓扑连接 模型参数从千亿迈向万亿,互联高需求从8卡扩展到百卡间 千亿模型:高通信需求(张量并行)集中8卡之间 3 .. . 0 Sever1 Sever2 SeverN SuperSever(S2)架构 万亿模型:高通信需求(MoE并行)集中在百卡之间 模型从千亿到万亿,高速卡间互联需求从8卡扩展到百卡,智算设备形态将从S(Server服务器)演变为S²(SuperServer,超级服务器),带来智算中心底层互联技术的全新变革 3-1、NICC新互联——高性能新以太互联网络 大模型以分布式训练为基础,通信开销导致GPU集群有效算力难以线性提升,网络成为AI算力“瓶颈”,亟需构建以新型以太网技术为基础,开放兼容、超高性能的新型智算中心网络技术体系 传统:网络性能和成本无法兼得未来:突破以太技术、升级高速互联 创新全调度以太网(GSE),革新以太网底层转发机制,增强物理 层、链路层、网络层、传输层协议能力,全面提升网络性能 AS-IS TO-BE 分发粒度 逐流分发 逐“报文容器”分发 发流模式 盲发+被动拥塞控制 感知+主动流量控制 转发策略 “局部”决策转发 “全局”最优调度 •InfiniBand 专用网络、超高性能、成本昂贵 •传统无损以太 生态开放、性能有限、性价比高 基础转发机制导致AI场景性能受限 以开放破垄断 流级 ECMP 被动 拥塞控制 独立 转发决策 以创新提性能 3-2、NICC新存储——内存池化 传统CPU和GPU分立的存储架构,导致数据大量搬移,影响模型训练效率 需要构建CPU和GPU间的统一内存池,减少数据搬运,简化编程开发,使模型训练更加高效 传统:HBM和DDR分立未来:HBM和DDR池化 •数据多次复制,延迟高,影响模型训练效率 CPU DDR •AI模型开发复杂,需要手动管理数据搬移 •数据无需多次搬运,GPU可快速访问巨量共享内存 CPU 统一内存池 HBM HBM DDR DDR •提供统一寻址空间,AI软件模型开发简化 GPU HBM GPU GPU GPU GPU GPU GPU CPU 3-3、NICC新算效——升级计算架构 随着NICC向超级池化阶段发展,解决海量数据处理要求,需要聚焦GPU升级,突破性能瓶颈,加强CPU、GPU、DPU三大芯片协同。未来,探索存算一体新型计算范式,达到能效比数量级提升 下一代GPU芯片设计 性能瓶颈 显存带宽和容量的制约数据搬移的功耗激增 演进路线 ①存储一体化设计 ②稀疏化设计 ③算法和芯片协同设计 ④低时延推理架构设计 GPU、CPU、DPU三大芯片协同三大芯片协同提升算效 迎接更加爆炸式的数据处理需求 CPU GPUDPU •GPU+DPU,参数面网卡升级,进一步满足可编程拥塞控制及大QP数量等前沿需求 •GPU+DPU+CPU,智算资源并池,大幅优化智算集群管理效率,实现文件存储卸载,加速训推过程 存算一体,突破传统计算范式 突破冯·诺依曼架构达到能效比数量级提升 •面向大模型推理场景 •基于SRAM,中大算力,100Tops+ •无限擦写,数模混合,精度拼接 3-4、NICC新平台——引入算力原生 智算应用难以在多样竖井化智算生态间迁移部署,制约系统整体运用效能。中国移动原创提出算力原生技术,打造“芯合”算力原生跨架构平台,打破“框架+工具链+硬件”紧耦合生态锁定,屏蔽底层硬件差异,繁荣全“芯”生态 应用层 框架层 Pytorch…… 跨架构流转的原生程序 原生运行时 程序加载动态链接 工具链 硬件层 NeuWare…… 编程模型转换、编译、优化 算力原生层 •跨架构综合编译器 √ 实现图算融合的跨架构综合编译、多级IR互转优化,生成中间元语格式的算力原生程序 •原生程序格式规范 全系统共识的“中间元语”。Host侧、√ Device侧指令元语及执行策略的一体承载 √ •原生运行时 CANN oneAPI CUDA ROCm 实现“中间元语”跨厂商的再装配,智算应用跨架构、可变粒度映射执行 一次开发、一次封装、跨芯迁移 3-5、NICC新节能——标准化大规模液冷技术 智算中心走向超大规模,面对不断攀升的能耗需求,液冷是必经之路 但液冷产业生态不完善,设备标准化程度低,需要通过“五大统一”实现三“极”目标 挑战1:单一AI服务器功耗超过10kW TDP(W) 700 GPU 500 400 CPU 300W 300-400 250 250-300 150-250 2016~20192020~2021 2022~ 挑战2:单机柜功耗超过40kW kW/架 30-60kW/架 单 机15kw/架 架 功5-10kW/架 率 通用服务器 AI服务器 举措:制定五大统一标准,实现三“极”目标 五大统一 机柜尺寸标准液冷接口标准液冷工质要求供电系统标准监控管理要求 5 液冷机柜 三“极”目标 ① ② ③ ④ ⑤ 冷却塔 CDU 1 冷水机组 4 一次侧回水 3 二次侧回水 • • • 极致能效PUE≤1.15 极高密度单机柜功耗>40kW极简运维兼容传统机房 2 一次侧供水二次侧供水 共筑大模型发展智能底座 开放协作普惠共赢