热门搜索：

陈佳媛：中国移动NICC新型智算中心技术体系解读

信息技术2023-09-15中国移动研究院付***

AI智能总结

中国移动NICC新型智算中心技术体系解读

智能算力需求增长背景

AIGC时代：随着智能化场景在各行业的深入发展，智算规模持续扩大，增速显著超越摩尔定律。
算力结构预测：预计未来几年内，算力结构将发生根本性变化，智算成为主流算力。

原有智算中心面临的挑战

技术匹配度低：早期建设的智算中心主要承载中小模型，技术与大模型需求不匹配。
能效水平低：采用传统的PCIe设备和风冷散热方式，能效水平较低。
标准化程度不足：建设方案与厂家深度绑定，缺乏行业统一标准。
生态封闭：生态发展呈垂直分割状态，迁移和适配难度大。
服务范围受限：主要面向区域内提供服务，缺乏全局、跨区域算力调度能力。
异构算力调度困难：缺乏有效的异构算力调度能力。

NICC新型智算中心特性

高性能GPU与AI加速卡：作为核心组成部分，支撑AI大模型的高效训练和推理。
高速互联智算集群：目标是构建E级超大规模算力基础设施，集约化建设，具备软硬件AI全栈环境。
五大重构：在新互联、新算效、新存储、新平台、新节能五个方面进行系统性重构，推动异构时期的发展。

技术体系亮点

新互联：从节点化向集群化演进，优化卡间互联，采用交换拓扑以适应大模型通信需求。
新存储：实现内存池化，提供统一的内存管理和访问，解决数据传输延迟问题。
新算效：升级计算架构，探索存算一体的新范式，提升能效比。
新平台：引入算力原生技术，实现跨架构迁移部署，简化开发流程。
新节能：通过标准化的大规模液冷技术，实现极致能效、极高密度和极简运维。

产业倡议

技术标准体系：明确智算技术架构，形成开放统一的技术标准。
产业协同：依托协同创新基地和智算编队，建立产业协同机制。
创新试验：利用科学装置进行大模型培育和科研验证。
规模化建设：通过算力网络试验网，打造新型智算样板间，推动技术成熟与规模应用。

结论

中国移动的NICC新型智算中心技术体系旨在应对智能算力需求的快速增长和挑战，通过技术创新和产业协同，构建一个高性能、高能效、开放统一的智算生态系统，以支持大模型的高效运行和普及应用。

中国移动NICC新型智算中心技术体系解读中国移动陈佳媛 2023.9 智算成为未来主流算力是大势所趋 AIGC时代，智能化场景在行业纵深发展，智算规模持续扩大，增速远超摩尔定律据《中国综合算力指数（2023年）》预测，算力结构会在未来几年发生根本性变化，智算成为主流算力全球：AI催生巨大智能算力需求 162106260E6FELFOLPOSPS 国内：智能算力占比快速提升 85% 约390倍 4411EEFFLLOOPPSS 25.4% 2018年AI算力需求2030年AI算力需求20232025 来源：罗兰贝格来源：中国信通院 2 早期建设的智算中心面临多项挑战 2020年前后国内开始建设智算中心，早期建设的智算中心主要承载中小模型面向大模型应用场景，在技术、标准、生态和运营等方面存在挑战技术：与大模型匹配度较低标准：缺乏行业统一标准 •主要承载中小模型 •PCIe设备为主，25G传统以太 •风冷散热，能效水平较低 •建设方案与厂家深度绑定 •标准化程度低 •客户学习和使用成本高昂生态：竖井式发展运营：缺乏全局协同 •英伟达先入为主，主导生态发展 •国产AI从细分场景切入 •跨架构迁移和适配难度大 •主要面向区域内客户提供服务 •缺乏全局、跨区域算力调度能力 •缺乏异构算力调度能力 3 打造智能算力新高峰——NICC新型智算中心新型智算中心以高性能GPU、AI加速卡为中心，以高速互联智算集群为目标，形成集约化建设的E级超大规模算力基础设施，具备软硬件AI全栈环境，支撑AI大模型的高效训练和推理新互联新算效新存储新平台新节能 4 新型智算中心是对传统云数据中心的飞跃在新互联、新算效、新存储、新平台、新节能等五大方面进行系统性重构，推动超级池化时期（2025~）大模型（千亿-万亿）传统云数据中心百卡高速总线互联 GSE 存算一体内存池化算力原生冷板/浸没式液冷 NICC新型智算中心异构时期（~2021）中小模型 PCIe 25G传统以太独立存储风冷裸机/虚机/容器集群时期（~2025）中大模型（百亿-千亿）互联单机8卡高速互联高性能无损网络算效扣卡模组 DPU 存储海量非结构化数据，融合存储平台算力池化，分布式训练节能单机柜40KW，冷板式液冷 5 智算运维运维管理模块开发管理交付管理 IaaS管理模块虚机容器裸机存储网络 NICC新型智算中心的架构 AI开发框架应用使能 TesnsorFlow PyTorch PaddlePaddle DeepSpeed ... 强化互联技术、深化算力协同、定义新型存储、新增算力原生、升级绿色节能构建标准统一、技术领先、软硬协同、兼容开放的NICC新型智算中心技术体系智算运营运营管理模块算力原生编排调度计量计费跨架构编译器算力抽象运行时算力交易用户界面智算平台 ROCm CUDA CANN ... 平台跨节点分布式训练调度裸金属实例 Hypervisor+ 虚拟机实例容器实例算效互联计算网络存储存储基础设施 CPUGPUDPUCIM RoCE 文件对象块内存池高速互联计算总线 GSE 融合存储全局统一存储节能机房配套液冷高效供电冷却水系统 6 新互联——节点化向集群化演进，服务器不再是算网的分界点 •大模型遵循ScalingLaw，迈进万亿规模，在原有Transformer结构基础上，引入了MoE（专家系统）算法以及并行策略，具有单次通信数据量小，但通信频繁，且对时延要求高的特点 •千亿模型的通信高要求只存在8卡之间，但万亿模型的高带宽低时延要求扩展到了百卡级别，节点的概念将从以服务器为单位扩展成以百卡集群为单位，智算设施应以实现百卡级别高速互联为新的设计思路 Scalinglaw是大模型演进的“摩尔定律”，万亿大模型是必然万亿大模型趋势下，互联高要求从8卡间扩展到百卡间参数量提升100倍数据量提升1000倍 ChatGPT GPT-4 参数：~1万亿服务器即节点 GPT-2 参数：15亿数据：40GB GPT-3 参数：1750亿数据：45TB 参数：1750亿数据：45TB+X 数据：20万亿Tokens 千亿参数模型 0 4 1 5 2 6 3 7 0 4 1 5 2 6 3 7 Sever1 Sever2 最高通信需求集中8卡之间，即服务器内部 ~400GB百ns级百卡集群即节点 SuperSever（S2）架构 .. . 0 4 1 5 2 6 3 7 SeverN 0 1 2 3 0 1 2 3 … 0 1 2 3 4 5 6 7 4 5 6 7 4 5 6 7 万亿参数模型最高通信需求集中在百卡之间，即集群内部 7 新互联——卡间互联从直连向交换拓扑演进，打造高效集群能力 •百卡间的通信能力的提升应从互联拓扑、通信协议方面优化。目前，卡间互联的最优解是交换拓扑（Switch）： •大规模连接：因芯片功耗限制和通信设计，直连拓扑难以应用于大规模连接。32卡全互联场景，以16nm的56Gbps（PAM4）SerDes的功耗为例，AI芯片用于卡间互联的功耗达80W，物理上难以实现此芯片设计 •从单芯片最大吞吐到点对点带宽：受限于芯片法案，单芯片的最大吞吐量止于600GB/s，因此通过交换拓扑，提升点对点（P2P）带宽能力，有助于整体芯片能力提升 •大模型推理应用：业界正在通过量化、蒸馏、剪枝等手段使大模型小型化，加快其应用落地。在推理场景下，模型部署在2卡或4卡，原8卡全互联拓扑难以发挥带宽优势，交换拓扑带来的P2P带宽优势将显著提升推理效率千亿模型国内量产以及规划产品均处于此阶段万亿模型英伟达从V100开始牵引的趋势直连拓扑交换拓扑 CubeMesh类全互联（FC） 0 3 4 7 0 3 4 7 0 3 4 7 Switch Switch Switch Switch Switch Switch 1 2 5 6 1 2 5 6 1 2 5 6 十亿级或中等模型模型趋势桥接互联拓扑 0 3 1 2 •Upto4卡互联 •单卡最大吞吐3个port •通信需求从4卡扩展到8卡 •单卡最大吞吐4/5/6个port •8卡全互联 •单卡最大吞吐7个port •8卡通过Switch全互联 •P2P带宽达百GB级别8 新互联——联合制定高速互联计算总线标准 •高速卡间互联需求从8卡扩展到百卡，智算设备形态将从S（Server服务器）演变为S²（SuperServer，超级服务器），带来智算中心底层互联技术的全新变革 •国内AI生态多而不强，大多AI芯片企业没有交换芯片设计能力，且互联协议各家自研，需要与交换芯片厂家深度合作定制 •中国移动希望联合业界制定统一的高速互联计算总线标准，打破国内GPU卡间互联的性能瓶颈 0 1 2 3 0 12 1 2 3 4 5 6 7 4 56 7 4 5 6 7 01 2 3 0 1 2 3…0 1 2 3 45 6 7 4 5 6 7 4 5 6 7 0 12 3 4 5... N 基于高速计算总线的S²的架构总线 Switch 总线 Switch 总线 Switch 计算总线总线Switch 总线Switch 总线Switch 总线Switch 012345...N 一组有N张GPU/AI卡一组有N张GPU/AI卡更低延迟的内部通信更高效的数据读写更灵活的拓扑连接模型参数从千亿迈向万亿，互联高需求从8卡扩展到百卡间千亿模型：高通信需求（张量并行）集中8卡之间 3 .. . 0 Sever1 Sever2 SeverN SuperSever（S2）架构万亿模型：高通信需求（MoE并行）集中在百卡之间 9 新互联——高性能新以太互联网络大模型以分布式训练为基础，要求网络能力：零丢包、大带宽、低时延、高可靠，为避免通信开销制约GPU集群有效算力提升，亟需构建开放兼容、超高性能的新型智算中心网络技术体系传统：网络性能和成本无法兼得未来：突破以太技术、升级高速互联创新全调度以太网(GSE)，革新以太网底层转发机制，增强物理层、链路层、网络层、传输层协议能力，全面提升网络性能 AS-IS TO-BE 分发粒度逐流分发逐“报文容器”分发发流模式盲发+被动拥塞控制感知+主动流量控制转发策略 “局部”决策转发 “全局”最优调度 •InfiniBand 专用网络、超高性能、成本昂贵 •传统无损以太生态开放、性能有限、性价比高基础转发机制导致AI场景性能受限以开放破垄断流级 ECMP 被动拥塞控制独立转发决策以创新提性能 10 新互联——全调度以太网（GSE）进展 2023.5 2023.6 2023.8 2023.9 云网智联大会发布《全调度以太网技术架构》白皮书 CCSA成功立项《全调度以太网总体技术要求》中国算力大会正式启动全调度以太网（GSE）推进计划中国网络大会发布业界首款GSE原型系统期待更多产学研合作伙伴加入GSE推进计划，共建新型智算中心网络产业生态! 全调度以太网（GSE）推进计划研究范畴： •物理层：低时延Phy、B400G高速光接口、光交换等 •链路层：基于报文分发和重组机制、调度技术、链路级安全及容错等 •网络层：新型组网拓扑、新型组播/任播协议等; •传输层：改进的RDMA、新型拥塞控制等 •应用层：在网计算、存储加速、开放API框架等 •管理和运维体系：网络可视化、可调试能力、多维自动化能力新存储——内存池化 •传统的存储层级架构在大模型的训练场景下，存在两大痛点： •HBM成本高，容量低，GPU要将数据从内存Load到HBM之后再进行计算，由此引起的数据传输延迟影响模型训练的效率 •缺乏统一寻址，程序员需要根据底层存储系统的规划来进行海量数据的排布，并手动完成数据的搬移，以及时保证数据的一致性，大大提高了用户编程的门槛 CPU DDR CPU 统一内存池 HBM HBM DDR DDR •内存池化使得整个系统的内存在逻辑上实现统一，提供一致性的内存语义和空间寻址能力，供多个GPU同时访问，这种一致性的模式，一方面解决了单个GPU显存容量限制的问题，另一方面使得多个GPU/CPU之间实现高效协同 CPU GPU HBM GPU GPU GPU GPU GPU GPU 12 随着NICC向超级池化阶段发展，解决海量数据处理要求，需要聚焦GPU升级，突破性能瓶颈，加强CPU、GPU、DPU三大芯片协同。未来，探索存算一体新型计算范式，达到能效比数量级提升下一代GPU芯片设计 GPU、CPU、DPU三大芯片协同存算一体，突破传统计算范式新算效——升级计算架构性能瓶颈显存带宽和容量的制约数据搬移的功耗激增演进路线 ①存储一体化设计 ②稀疏化设计 ③算法和芯片协同设计 ④低时延推理架构设计三大芯片协同提升算效迎接更加爆炸式的数据处理需求 CPU GPUDPU 场景1：统一云化管理场景2：高性能存储加速场景3：RDMA网络协同优化突破冯诺依曼架构达到能效比数量级提升 •面向大模型推理场景 •基于SRAM，中大算力，100T++ •无限擦写，数模混合，精度拼接 13 中大规模深度学习模型训练和推理任务对AI集群资源管理效率、网络和存储性能提出了更极致的需求，DPU可在智算领域三大应用场景与计算、网络、存储深度协同，助力算效提升新算效——升级计算架构(DPU) 三大应用场景，两种部署模式深化标准体系，普惠DPU能力统一云化管理 •裸金属、容器、虚机统一管理，交付效率提高10倍模式1：替代CPU域网卡面向多层解耦已形成“1+5+4”技术标准体系智算场景重点围绕三大方向试验

点击免费查看完整报告