算力网络原创技术与 NICC新型智算中心技术体系 中国移动段晓东 2023.9 中国移动算力网络发展历程回顾 算力网络发展主线 主线一 面向算网基础设施构建 物理空间、逻辑空间、异构空间、多主体算力融通 “4+N+31+X”布局,1100边缘节点打造20ms、5ms、1ms三级时延圈SRv6/G-SRv6打造统一算网底座 主线二 面向业务融合创新 实现算网高效协同,支持CHBN业务融合发展,打造算网全新生态产品算力化和算力产品化 发布算网服务1.0构筑算网大脑 主线三 面向创新技术引领 实现创新技术引领,打造原创技术策源地 三横两纵体系架构提出十大技术发展方向三十二个核心技术体系 继往开来,成功迈入算力网络新阶段 跨越:一体内生 一体服务,模式创新 智慧内生 算网一体 起步:泛在协同 一站服务、协同运营协同编排 网随算动 发展:融合统一 融合服务、统一运营算网融合 智能编排 十四五阶段 十五五阶段及更长期 2021-20232024-20252025~ 构筑算力网络发展源动力,开创算网一体原创技术体系 总线互联 卡间高速通信 算力路由 突破互联网架构协议 广域RDMA 突破广域传输性能瓶颈 全调度以太 突破无损以太性能瓶颈 新一代SD-WAN Under与Overlay协同 算力并网 实现算力供给侧改革 算力智能内生 计算要素创智能服务 移动算力 5G、6G新增计算面 算力原生 实现应用跨架构迁移 存算一体 突破冯氏架构 算力度量 打破单维算力指标 在网计算 打破算网边界 隐私计算 安全数据分析计算 算力卸载 多算力形态统一底座 400G/800G 超高速大容量全光网络 G-SRv6 统一IP承载协议 空芯光纤 新型光纤介质与系统 算力解构 应用模块化解构部署 50GPON+FTTR 新型接入网架构 云原生 敏捷高效体系 OTN光电联动 新型全光网架构 全光接入 新型接入网架构 应用感知 应用类型识别 空天地一体 突破异构算网融合 原创技术“5颗珍珠”:算力原生、算力路由、全调度以太、在网计算、G-SRv6 提升高度 算为中心① 打造算力供给高峰 拓展广度 网为根基② 实现深度融合统一 挖掘深度 多要素融合③ 开创一体化服务④模式 聚力“高、广、深”,实现新发展 以算为中心①、网为根基②,网、云、数、智、安、边、端、链等深度融合③、提供一体化服务④的新型信息基础设施 打造智能算力新高峰——NICC新型智算中心 新型智算中心 以高性能GPU、AI加速卡为中心,以高速互联智算集群为目标, 形成集约化建设的E级超大规模算力基础设施, 具备软硬件AI全栈环境,支撑AI大模型的高效训练和推理 新互联 新算效 新存储 新平台 新节能 1、新型智算中心是对传统云数据中心的飞跃 集群时期(~2025) 中大模型(百亿-千亿) 超级池化时期(2025~) 大模型(千亿-万亿) 传统云数据中心 互联 单机8卡高速互联 高性能无损网络 百卡高速总线互联 GSE 异构时期(~2021) 中小模型 算效 扣卡模组 DPU 存算一体 存储 海量非结构化数据,融合存储 内存池化 PCIe 25G传统以太 平台 算力池化,分布式训练 算力原生 独立存储 风冷 节能 单机柜40KW,冷板式液冷 冷板/浸没式液冷 裸机/虚机/容器 NICC新型智算中心 智算运维运维管理模块 开发管理交付管理 IaaS管理模块 虚机容器裸机 存储网络 应用使能 TesnsorFlow PyTorch AI开发框架 PaddlePaddle DeepSpeed ... 2、NICC新型智算中心的架构 智算运营 运营管理模块 算力原生 编排调度 计量计费 跨架构编译器算力抽象运行时 算力交易 用户界面 智算平台 ROCm CUDA CANN ... 平台 跨节点分布式训练调度 裸金属实例 Hypervisor+ 虚拟机实例 容器实例 算效 互联 计算 基础设施 CPUGPUDPUCIM 网络 RoCE 存储存储 文件对象块内存池 高速互联计算总线 节能 液冷 GSE 融合存储 全局统一存储 机房配套 高效供电 冷却水系统 模型参数从千亿迈向万亿,互联高需求从8卡扩展到百卡间 千亿模型:高通信需求(张量并行)集中8卡之间 0 4 1 5 2 6 3 7 ... 0 4 1 5 2 6 3 7 Sever1 SeverN SuperSever(S2)架构 万亿模型:高通信需求(MoE并行)集中在百卡之间 3-1、NICC新互联——高速互联计算总线 … 0 1 2 3 0 1 2 3 4 5 6 7 4 5 6 7 基于高速计算总线的S²的架构 总线Switch 总线Switch 计算总线 总线Switch 总线Switch 012345... N 一组有N张GPU/AI卡 更低延迟的内部通信更高效的数据读写更灵活的拓扑连接 3-1、NICC新互联——高性能新以太互联网络 传统:网络性能和成本无法兼得未来:突破以太技术、升级高速互联 流级ECMP 被动拥塞控制 独立转发决策 盲发+被动拥塞控制 感知+主动流量控制 “局部”决策转发 逐流分发 “全局”最优调度 逐“报文容器”分发 •InfiniBand 专用网络、超高性能、成本昂贵 •传统无损以太 生态开放、性能有限、性价比高 基础转发机制导致AI场景性能受限 创新全调度以太网(GSE),革新以太网底层转发机制, 增强物理层、链路层、网络层、传输层协议能力,全面提升网络性能 AS-IS TO-BE 分发粒度 发流模式 转发策略 以开放 破垄断 以创新 提性能 3-1、全调度以太网组网场景 GSE协议可根据网络设备和网卡能力,将方案各组件功能在网络组件中重新分工,支持多种组网场景,为后续网络建设和设备选型提供灵活的选择方案 Spine GSF Leaf GSP … … GSF GSF 网卡 网卡 网卡 网卡 GSPGSP GSP 计算卡计算卡计算卡 计算卡计算卡计算卡 场景一:仅网侧运行GSE,网卡不感知场景二:部分功能下沉网卡,实现端网协同 Spine Leaf GSF… GSP… 网卡网卡网卡 GSF GSP 网卡网卡网卡 计算卡计算卡计算卡 计算卡 计算卡计算卡 •GSP和GSF角色均由网络设备担任,执行GSE头解封装、多路径分发、端到端授权应答及报文排序 •传统RoCE网卡,对网卡无额外要求 源GSP、GSF由网络设备担任,执行GSE头解封装、多路径分发等功能 网卡承担部分GSP角色,负责授权应答及报文排序 3-1、GSE原型机系统特性 产品规格: •当前32*100G(业务口+互联口),盒式设备、1U •采用P4+FPGA芯片实现 •可同时兼做GSP和GSF硬件设备,软件灵活切换功能特性: •支持基于报文容器的全路径“喷洒” •支持端到端DGSQ请求及授权 •支持报文乱序重排 •报文容器长度支持16KB 性能特性: •相较于RoCE网络,AllReduce及alltoall场景JCT时间可缩短2-3倍 3-1、全调度以太网(GSE)工作进展及计划 2023.5 2023.6 2023.8 2023.9 联合产业发布《全调度以太网 (GSE)技术架构》白皮书 在CCSA成功立项《全调度以太网总体技术要求》 中国算力大会正式启动全调度以太网(GSE)推进计划 中国网络大会发布业界首款GSE原型系统 期待更多产学研合作伙伴加入GSE推进计划,携手共建新型智算中心网络产业生态! 3-2、NICC新存储——内存池化 传统:HBM和DDR分立未来:HBM和DDR池化 •数据多次复制,延迟高,影响模型训练效率 CPU DDR •AI模型开发复杂,需要手动管理数据搬移 •数据无需多次搬运,GPU可快速访问巨量共享内存 CPU 统一内存池 DDR DDR HBM HBM CPU •提供统一寻址空间,AI软件模型开发简化 GPU HBM GPU GPU GPU GPU GPU GPU 3-3、NICC新算效——升级计算架构 下一代GPU芯片设计 GPU、CPU、DPU三大芯片协同 存算一体,突破传统计算范式 性能瓶颈 显存带宽和容量的制约 数据搬移的功耗激增 演进路线 ①存储一体化设计 ②稀疏化设计 ③算法和芯片协同设计 ④低时延推理架构设计 三大芯片协同提升算效 迎接更加爆炸式的数据处理需求 CPU GPU DPU •GPU+DPU,参数面网卡升级,进一步满足可编程拥塞控制 及大QP数量等前沿需求 •GPU+DPU+CPU,智算资源并池,大幅优化智算集群管理 效率,实现文件存储卸载,加速训推过程 突破冯·诺依曼架构 达到能效比数量级提升 •面向大模型推理场景 •基于SRAM,中大算力,100Tops+ •无限擦写,数模混合,精度拼接 3-4、NICC新平台——引入算力原生 CANN oneAPI CUDA ROCm NeuWare 应用层 框架层 Pytorch…… 跨架构流转的原生程序 原生运行时 程序加载动态链接 工具链 硬件层 …… 编程模型转换、编译、优化 算力原生层 一次开发、一次封装、跨芯迁移 •跨架构综合编译器 √ 实现图算融合的跨架构综合编译、多级IR互转优化,生成中间元语格式的算力原生程序 •原生程序格式规范 √ 全系统共识的“中间元语”。Host侧、Device侧指令元语及执行策略的一体承载 •原生运行时 √ 实现“中间元语”跨厂商的再装配,智算应用跨架构、可变粒度映射执行 3-5、NICC新节能——标准化大规模液冷技术 挑战1:单一AI服务器功耗超过10kW TDP(W) 700 GPU 500 400 CPU 300W300-400 250 150-250 2016~2019 250-300 2020~2021 2022~ 挑战2:单机柜功耗超过40kW kW/架 30-60kW/架 单 机15kw/架 架 功率 5-10kW/架 通用服务器 AI服务器 举措:制定五大统一标准,实现三“极”目标 ① ② ③ ④ ⑤ 五大统一 机柜尺寸标准液冷接口标准液冷工质要求供电系统标准监控管理要求 冷却塔 5液冷机柜 三“极”目标 CDU 冷水机组 1 4 • • • 极致能效 极高密度 极简运维 PUE≤1.15 单机柜功耗>40kW 兼容传统机房 一次侧回水 3 二次侧回水 2 一次侧供水二次侧供水 产业倡议 技术标准 明确智算技术架构,完善计算、存储、网络、平台关键技术方案,形成开放统一的技术标准体系 科学装置 依托科学装置进行大模型培育,带动国产化成熟, 开展科研类验证,打造标杆应用 编队作战 发挥产业链链长作用,依托协同创新基地, 联动产业成立智算编队,建立研采投等产业协同机制 创新试验 依托算力网络试验网CFITI,打造新型智算样板间, 验证新型智算技术,推动技术成熟与规模建设 谢谢莅临!