中国移动NICC新型智算中心技术体系解读 中国移动陈佳媛 2023.9 智算成为未来主流算力是大势所趋 AIGC时代,智能化场景在行业纵深发展,智算规模持续扩大,增速远超摩尔定律 据《中国综合算力指数(2023年)》预测,算力结构会在未来几年发生根本性变化,智算成为主流算力 全球:AI催生巨大智能算力需求 162106260E6FELFOLPOSPS 国内:智能算力占比快速提升 85% 约390倍 4411EEFFLLOOPPSS 25.4% 2018年AI算力需求2030年AI算力需求20232025 来源:罗兰贝格 来源:中国信通院 2 早期建设的智算中心面临多项挑战 2020年前后国内开始建设智算中心,早期建设的智算中心主要承载中小模型面向大模型应用场景,在技术、标准、生态和运营等方面存在挑战 技术:与大模型匹配度较低标准:缺乏行业统一标准 •主要承载中小模型 •PCIe设备为主,25G传统以太 •风冷散热,能效水平较低 •建设方案与厂家深度绑定 •标准化程度低 •客户学习和使用成本高昂 生态:竖井式发展运营:缺乏全局协同 •英伟达先入为主,主导生态发展 •国产AI从细分场景切入 •跨架构迁移和适配难度大 •主要面向区域内客户提供服务 •缺乏全局、跨区域算力调度能力 •缺乏异构算力调度能力 3 打造智能算力新高峰——NICC新型智算中心 新型智算中心 以高性能GPU、AI加速卡为中心,以高速互联智算集群为目标, 形成集约化建设的E级超大规模算力基础设施, 具备软硬件AI全栈环境,支撑AI大模型的高效训练和推理 新互联 新算效 新存储 新平台 新节能 4 新型智算中心是对传统云数据中心的飞跃 在新互联、新算效、新存储、新平台、新节能等五大方面进行系统性重构,推动 超级池化时期(2025~) 大模型(千亿-万亿) 传统云数据中心 百卡高速总线互联 GSE 存算一体 内存池化 算力原生 冷板/浸没式液冷 NICC新型智算中心 异构时期(~2021) 中小模型 PCIe 25G传统以太 独立存储 风冷 裸机/虚机/容器 集群时期(~2025) 中大模型(百亿-千亿) 互联 单机8卡高速互联 高性能无损网络 算效 扣卡模组 DPU 存储 海量非结构化数据,融合存储 平台 算力池化,分布式训练 节能 单机柜40KW,冷板式液冷 5 智算运维 运维管理模块 开发管理交付管理 IaaS管理模块 虚机容器裸机 存储 网络 NICC新型智算中心的架构 AI开发框架 应用使能 TesnsorFlow PyTorch PaddlePaddle DeepSpeed ... 强化互联技术、深化算力协同、定义新型存储、新增算力原生、升级绿色节能构建标准统一、技术领先、软硬协同、兼容开放的NICC新型智算中心技术体系 智算运营 运营管理模块 算力原生 编排调度计量计费 跨架构编译器算力抽象运行时 算力交易用户界面 智算平台 ROCm CUDA CANN ... 平台 跨节点分布式 训练调度 裸金属实例 Hypervisor+ 虚拟机实例 容器实例 算效 互联 计算网络 存储 存储 基础设施 CPUGPUDPUCIM RoCE 文件对象块内存池 高速互联计算总线 GSE 融合存储 全局统一存储 节能 机房配套 液冷 高效供电 冷却水系统 6 新互联——节点化向集群化演进,服务器不再是算网的分界点 •大模型遵循ScalingLaw,迈进万亿规模,在原有Transformer结构基础上,引入了MoE(专家系统)算法以及并行策略,具有单次通信数据量小,但通信频繁,且对时延要求高的特点 •千亿模型的通信高要求只存在8卡之间,但万亿模型的高带宽低时延要求扩展到了百卡级别,节点的概念将从以服务器为单位扩展成以百卡集群为单位,智算设施应以实现百卡级别高速互联为新的设计思路 Scalinglaw是大模型演进的“摩尔定律”,万亿大模型是必然 万亿大模型趋势下,互联高要求从8卡间扩展到百卡间 参数量提升100倍 数据量提升1000倍 ChatGPT GPT-4 参数:~1万亿 服务器即节点 GPT-2 参数:15亿数据:40GB GPT-3 参数:1750亿数据:45TB 参数:1750亿数据:45TB+X 数据:20万亿Tokens 千亿参数模型 0 4 1 5 2 6 3 7 0 4 1 5 2 6 3 7 Sever1 Sever2 最高通信需求集中8卡之间,即服务器内部 ~400GB百ns级 百卡集群即节点 SuperSever(S2)架构 .. . 0 4 1 5 2 6 3 7 SeverN 0 1 2 3 0 1 2 3 … 0 1 2 3 4 5 6 7 4 5 6 7 4 5 6 7 万亿参数模型 最高通信需求集中在百卡之间,即集群内部 7 新互联——卡间互联从直连向交换拓扑演进,打造高效集群能力 •百卡间的通信能力的提升应从互联拓扑、通信协议方面优化。目前,卡间互联的最优解是交换拓扑(Switch): •大规模连接:因芯片功耗限制和通信设计,直连拓扑难以应用于大规模连接。32卡全互联场景,以16nm的56Gbps(PAM4)SerDes的功耗为例,AI芯片用于卡间互联的功耗达80W,物理上难以实现此芯片设计 •从单芯片最大吞吐到点对点带宽:受限于芯片法案,单芯片的最大吞吐量止于600GB/s,因此通过交换拓扑,提升点对点(P2P)带宽能力,有助于整体芯片能力提升 •大模型推理应用:业界正在通过量化、蒸馏、剪枝等手段使大模型小型化,加快其应用落地。在推理场景下,模型部署在2卡或4卡,原8卡全互联拓扑难以发挥带宽优势,交换拓扑带来的P2P带宽优势将显著提升推理效率 千亿模型 国内量产以及规划产品均处于此阶段 万亿模型 英伟达从V100开始牵引的趋势 直连拓扑交换拓扑 CubeMesh类 全互联(FC) 0 3 4 7 0 3 4 7 0 3 4 7 Switch Switch Switch Switch Switch Switch 1 2 5 6 1 2 5 6 1 2 5 6 十亿级或中等模型 模型趋势 桥接 互联拓扑 0 3 1 2 •Upto4卡互联 •单卡最大吞吐3个port •通信需求从4卡扩展到8卡 •单卡最大吞吐4/5/6个port •8卡全互联 •单卡最大吞吐7个port •8卡通过Switch全互联 •P2P带宽达百GB级别8 新互联——联合制定高速互联计算总线标准 •高速卡间互联需求从8卡扩展到百卡,智算设备形态将从S(Server服务器)演变为S²(SuperServer,超级服务器),带来智算中心底层互联技术的全新变革 •国内AI生态多而不强,大多AI芯片企业没有交换芯片设计能力,且互联协议各家自研,需要与交换芯片厂家深度合作定制 •中国移动希望联合业界制定统一的高速互联计算总线标准,打破国内GPU卡间互联的性能瓶颈 0 1 2 3 0 12 1 2 3 4 5 6 7 4 56 7 4 5 6 7 01 2 3 0 1 2 3…0 1 2 3 45 6 7 4 5 6 7 4 5 6 7 0 12 3 4 5... N 基于高速计算总线的S²的架构 总线 Switch 总线 Switch 总线 Switch 计算总线 总线Switch 总线Switch 总线Switch 总线Switch 012345...N 一组有N张GPU/AI卡 一组有N张GPU/AI卡 更低延迟的内部通信 更高效的数据读写 更灵活的拓扑连接 模型参数从千亿迈向万亿,互联高需求从8卡扩展到百卡间 千亿模型:高通信需求(张量并行)集中8卡之间 3 .. . 0 Sever1 Sever2 SeverN SuperSever(S2)架构 万亿模型:高通信需求(MoE并行)集中在百卡之间 9 新互联——高性能新以太互联网络 大模型以分布式训练为基础,要求网络能力:零丢包、大带宽、低时延、高可靠, 为避免通信开销制约GPU集群有效算力提升,亟需构建开放兼容、超高性能的新型智算中心网络技术体系 传统:网络性能和成本无法兼得未来:突破以太技术、升级高速互联 创新全调度以太网(GSE),革新以太网底层转发机制,增强物理 层、链路层、网络层、传输层协议能力,全面提升网络性能 AS-IS TO-BE 分发粒度 逐流分发 逐“报文容器”分发 发流模式 盲发+被动拥塞控制 感知+主动流量控制 转发策略 “局部”决策转发 “全局”最优调度 •InfiniBand 专用网络、超高性能、成本昂贵 •传统无损以太 生态开放、性能有限、性价比高 基础转发机制导致AI场景性能受限 以开放破垄断 流级 ECMP 被动 拥塞控制 独立 转发决策 以创新提性能 10 新互联——全调度以太网(GSE)进展 2023.5 2023.6 2023.8 2023.9 云网智联大会发布 《全调度以太网技术架构》白皮书 CCSA成功立项 《全调度以太网总体技术要求》 中国算力大会正式启动 全调度以太网(GSE)推进计划 中国网络大会发布业界首款GSE原型系统 期待更多产学研合作伙伴加入GSE推进计划,共建新型智算中心网络产业生态! 全调度以太网(GSE)推进计划研究范畴: •物理层:低时延Phy、B400G高速光接口、光交换等 •链路层:基于报文分发和重组机制、调度技术、链路级安全及容错等 •网络层:新型组网拓扑、新型组播/任播协议等; •传输层:改进的RDMA、新型拥塞控制等 •应用层:在网计算、存储加速、开放API框架等 •管理和运维体系:网络可视化、可调试能力、多维自动化能力 新存储——内存池化 •传统的存储层级架构在大模型的训练场景下,存在两大痛点: •HBM成本高,容量低,GPU要将数据从内存Load到HBM之后再进行计算,由此引起的数据传输延迟影响模型训练的效率 •缺乏统一寻址,程序员需要根据底层存储系统的规划来进行海量数据的排布,并手动完成数据的搬移,以及时保证数据的一致性,大大提高了用户编程的门槛 CPU DDR CPU 统一内存池 HBM HBM DDR DDR •内存池化使得整个系统的内存在逻辑上实现统一,提供一致性的内存语义和空间寻址能力,供多个GPU同时访问,这种一致性的模式,一方面解决了单个GPU显存容量限制的问题,另一方面使得多个GPU/CPU之间实现高效协同 CPU GPU HBM GPU GPU GPU GPU GPU GPU 12 随着NICC向超级池化阶段发展,解决海量数据处理要求,需要聚焦GPU升级,突破性能瓶颈, 加强CPU、GPU、DPU三大芯片协同。未来,探索存算一体新型计算范式,达到能效比数量级提升 下一代GPU芯片设计 GPU、CPU、DPU三大芯片协同 存算一体,突破传统计算范式 新算效——升级计算架构 性能瓶颈 显存带宽和容量的制约数据搬移的功耗激增 演进路线 ①存储一体化设计 ②稀疏化设计 ③算法和芯片协同设计 ④低时延推理架构设计 三大芯片协同提升算效 迎接更加爆炸式的数据处理需求 CPU GPUDPU 场景1:统一云化管理场景2:高性能存储加速 场景3:RDMA网络协同优化 突破冯诺依曼架构达到能效比数量级提升 •面向大模型推理场景 •基于SRAM,中大算力,100T++ •无限擦写,数模混合,精度拼接 13 中大规模深度学习模型训练和推理任务对AI集群资源管理效率、网络和存储性能提出了更极致的需求,DPU可在智算领域三大应用场景与计算、网络、存储深度协同,助力算效提升 新算效——升级计算架构(DPU) 三大应用场景,两种部署模式深化标准体系,普惠DPU能力 统一云化管理 •裸金属、容器、虚机统一管理,交付效率提高10倍 模式1:替代CPU域网卡 面向多层解耦 已形成“1+5+4”技术标准体系 智算场景 重点围绕三大方向试验