热门搜索：

段晓东：构筑NICC新型智算中心加速大模型发展

信息技术2023-09-04中国移动研究院路***

AI智能总结

构筑新型智算中心加速大模型发展的报告摘要

报告要点：

科技与社会发展：
- 时代变迁：人类社会正步入通用人工智能时代，生产力、产业布局和社会治理模式将迎来革命性的变化。
- 技术路径：从蒸汽时代、电气时代到信息时代，最终迈向通用人工智能时代，体现了科技进步对社会的巨大影响。
人工智能的新范式：
- 从“X+AI”到“AI+X”：强调人工智能与各行业的深度融合，通过智能化提升业务效率和服务模式。
- AI赋能与网络使能：提出AI内生的概念，强调AI技术深度嵌入网络系统，实现智能化的自适应和自我优化。
新型智算中心：
- 技术研发：重点介绍研发九天人工智能大模型，包括基础大模型和行业大模型，旨在构建国家级通用智能底座。
- 基础设施建设：提出构建NICC新型智算中心，采用高性能GPU、AI加速卡和高速互联智算集群，提供E级超大规模算力基础设施。
- 技术创新：强调新技术如高性能GPU、AI加速卡、高速互联技术、内存池化、存算一体架构等，以提升算力效率和降低成本。
AI与网络融合：
- AI赋能网络：通过数据和模型的优化，提高网络的智能化水平。
- 网络使能AI：通过计算和平台的升级，支持AI大模型的高效训练和推理，实现网络资源的优化配置。
绿色节能：
- 液冷技术：通过标准化的大规模液冷技术，解决智算中心的高能耗问题，追求极致能效和高密度部署。
合作与共赢：
- 开放协作：强调构建智能算力新高峰，实现技术、资源和生态的开放共享。
- 普惠价值：倡导智能底座的开放和普惠，促进大模型技术的广泛应用和价值最大化。

该报告旨在探讨如何通过构建新型智算中心，加速大模型的发展，推动人工智能时代的到来，实现科技与社会的和谐共生和可持续发展。

构筑NICC新型智算中心加速大模型发展中国移动段晓东 2023.9 人类社会正在步入通用人工智能新时代，科学技术体系、产业布局及社会治理模式都将被深刻改变世界发展迎来全新范式大模型带来通用人工智能的曙光，催生新的范式生产力发展通用人工智能时代消费互联网时代蒸汽时代电气时代数字经济时代农业时代 1760s 工业时代 1970s 信息时代 2020s 2 从“X+AI”到“AI+X” 充分发挥人工智能从“X+AI”到“AI+X”的变革性作用，重塑业务流程、形态、服务模式、价值呈现 “融智”，将AI融入各行各业以智能化技术提升业务成效 “赋能”，以大模型为基础构筑全新业务形态与服务模式 SaaS AI+网络 AI+客服 AI+产品 AI+OA … AI内生 MaaS/ A2aaS I2aaS AI内生6G网络 大模型 新型智算中心 3 “AI赋能网络”+“网络使能AI”=AI内生6G网络面向设计目标，AI赋能网络的设计重点在于数据和模型、网络使能AI的设计重点在于计算和平台 AI赋能网络赋能场景网络使能AI使能场景为实现AI赋能网络设计目驱动标，需重点关注网络内生数据和模型的构建问题支撑调用网络第三方服务为实现网络使能AI设计目标，需重点解决网络边缘算力资源共享、端边协同的平台化服务网络数据模型 CU DU AAU 构建计算+能力平台构建云核心网 MEC 无线网用户网络与AI融合统一架构为实现AI内生网络的整体性能最优设计，需重点解决AI赋能网络和网络使能AI在资源、功能和服务层的耦合关系，实现至简灵活的架构 4 •基础大模型：加快构建适用于泛场景的自主可控通用基础大模型，打造国家级通用智能底座 •行业大模型：聚焦供给侧，加快构建行业大模型，加速各行业各领域智能化转型升级，促进我国整体生产力跃升支撑研发九天人工智能大模型 L1 衍生行业大模型………… L0 基础大模型 5 打造智能算力新高峰——NICC新型智算中心新型智算中心以高性能GPU、AI加速卡为中心，以高速互联智算集群为目标，形成集约化建设的E级超大规模算力基础设施，具备软硬件AI全栈环境，支撑AI大模型的高效训练和推理新互联新算效新存储新平台新节能 6 1、新型智算中心是对传统云数据中心的飞跃在新互联、新算效、新存储、新平台、新节能等五大方面进行系统性重构，推动超级池化时期（2025~）大模型（千亿-万亿）传统云数据中心百卡高速总线互联 GSE 存算一体内存池化算力原生冷板/浸没式液冷 NICC新型智算中心异构时期（~2021）中小模型 PCIe 25G传统以太独立存储风冷裸机/虚机/容器集群时期（~2025）中大模型（百亿-千亿）互联单机8卡高速互联高性能无损网络算效扣卡模组 DPU 存储海量非结构化数据，融合存储平台算力池化，分布式训练节能单机柜40KW，冷板式液冷 7 智算运维运维管理模块开发管理交付管理 IaaS管理模块虚机容器裸机存储网络 2、NICC新型智算中心的架构 AI开发框架应用使能 TesnsorFlow PyTorch PaddlePaddle DeepSpeed ... 强化互联技术、深化算力协同、定义新型存储、新增算力原生、升级绿色节能构建标准统一、技术领先、软硬协同、兼容开放的NICC新型智算中心技术体系智算运营运营管理模块算力原生编排调度计量计费跨架构编译器算力抽象运行时算力交易用户界面智算平台 ROCm CUDA CANN ... 平台跨节点分布式训练调度裸金属实例 Hypervisor+ 虚拟机实例容器实例算效互联计算网络存储存储基础设施 CPUGPUDPUCIM RoCE 文件对象块内存池高速互联计算总线 GSE 融合存储全局统一存储节能机房配套液冷高效供电冷却水系统 8 3-1、NICC新互联——高速互联计算总线模型从千亿到万亿，高速卡间互联需求从8卡扩展到百卡，智算设备形态将从S（Server服务器）演变为S²（SuperServer，超级服务器），带来智算中心底层互联技术的全新变革基于高速计算总线的S²的架构计算总线总线 Switch 总线 Switch 总线 Switch 总线Switch 总线Switch 总线Switch 总线Switch 012345...N 012345...N 一组有N张GPU/AI卡一组有N张GPU/AI卡更低延迟的内部通信更高效的数据读写更灵活的拓扑连接模型参数从千亿迈向万亿，互联高需求从8卡扩展到百卡间千亿模型：高通信需求（张量并行）集中8卡之间 0 1 2 3 0 12 1 2 3 4 5 6 7 4 56 7 4 5 6 7 3..0 Sever1 Sever2 .SeverN 01 2 3 0 1 2 3…0 1 2 3 45 6 7 4 5 6 7 4 5 6 7 SuperSever（S2）架构万亿模型：高通信需求（MoE并行）集中在百卡之间 9 3-1、NICC新互联——高性能新以太互联网络大模型以分布式训练为基础，通信开销导致GPU集群有效算力难以线性提升，网络成为AI算力“瓶颈”，亟需构建以新型以太网技术为基础，开放兼容、超高性能的新型智算中心网络技术体系传统：网络性能和成本无法兼得未来：突破以太技术、升级高速互联 •InfiniBand 专用网络、超高性能、成本昂贵 •传统无损以太生态开放、性能有限、性价比高基础转发机制导致AI场景性能受限创新全调度以太网(GSE)，革新以太网底层转发机制，增强物理层、链路层、网络层、传输层协议能力，全面提升网络性能 AS-IS TO-BE 分发粒度发流模式转发策略以开放破垄断逐流分发逐“报文容器”分发流级 ECMP 被动拥塞控制独立转发决策盲发+被动拥塞控制 “局部”决策转发感知+主动流量控制 “全局”最优调度以创新提性能 10 3-2、NICC新存储——内存池化传统CPU和GPU分立的存储架构，导致数据大量搬移，影响模型训练效率需要构建CPU和GPU间的统一内存池，减少数据搬运，简化编程开发，使模型训练更加高效传统：HBM和DDR分立未来：HBM和DDR池化 •数据多次复制，延迟高，影响模型训练效率 CPU DDR •AI模型开发复杂，需要手动管理数据搬移 •数据无需多次搬运，GPU可快速访问巨量共享内存 CPU 统一内存池 HBM HBM DDR DDR •提供统一寻址空间，AI软件模型开发简化 CPU GPU HBM GPU GPU GPU GPU GPU GPU 11 3-3、NICC新算效——升级计算架构随着NICC向超级池化阶段发展，解决海量数据处理要求，需要聚焦GPU升级，突破性能瓶颈，加强CPU、GPU、DPU三大芯片协同。未来，探索存算一体新型计算范式，达到能效比数量级提升下一代GPU芯片设计性能瓶颈显存带宽和容量的制约数据搬移的功耗激增演进路线 ①存储一体化设计 ②稀疏化设计 ③算法和芯片协同设计 ④低时延推理架构设计 GPU、CPU、DPU三大芯片协同三大芯片协同提升算效迎接更加爆炸式的数据处理需求 CPU GPUDPU •GPU+DPU，参数面网卡升级，进一步满足可编程拥塞控制及大QP数量等前沿需求 •GPU+DPU+CPU，智算资源并池，大幅优化智算集群管理效率，实现文件存储卸载，加速训推过程存算一体，突破传统计算范式突破冯·诺依曼架构达到能效比数量级提升 •面向大模型推理场景 •基于SRAM，中大算力，100Tops+ •无限擦写，数模混合，精度拼接 12 3-4、NICC新平台——引入算力原生智算应用难以在多样竖井化智算生态间迁移部署，制约系统整体运用效能。中国移动原创提出算力原生技术，打造“芯合”算力原生跨架构平台，打破“框架+工具链+硬件”紧耦合生态锁定，屏蔽底层硬件差异，繁荣全“芯”生态 CANN oneAPI CUDA ROCm 一次开发、一次封装、跨芯迁移 •跨架构综合编译器应用层框架层 Pytorch…… 跨架构流转的原生程序原生运行时程序加载动态链接工具链硬件层 NeuWare…… 编程模型转换、编译、优化算力原生层 √ 实现图算融合的跨架构综合编译、多级IR互转优化，生成中间元语格式的算力原生程序 •原生程序格式规范全系统共识的“中间元语”。Host侧、√ Device侧指令元语及执行策略的一体承载 √ •原生运行时实现“中间元语”跨厂商的再装配，智算应用跨架构、可变粒度映射执行 13 3-5、NICC新节能——标准化大规模液冷技术智算中心走向超大规模，面对不断攀升的能耗需求，液冷是必经之路但液冷产业生态不完善，设备标准化程度低，需要通过“五大统一”实现三“极”目标挑战1：单一AI服务器功耗超过10kW TDP（W） 700 GPU 500 400 CPU 300W 300-400 250 250-300 150-250 2016～20192020～2021 2022～挑战2：单机柜功耗超过40kW kW/架 30-60kW/架单机15kw/架架功5-10kW/架率通用服务器 AI服务器举措：制定五大统一标准，实现三“极”目标五大统一机柜尺寸标准液冷接口标准液冷工质要求供电系统标准监控管理要求 5 液冷机柜三“极”目标 ① ② ③ ④ ⑤ 冷却塔 CDU 1 冷水机组 4 一次侧回水 3 二次侧回水 • • • 极致能效PUE≤1.15 极高密度单机柜功耗＞40kW极简运维兼容传统机房 2 一次侧供水二次侧供水 14 共筑大模型发展智能底座开放协作普惠共赢

点击免费查看完整报告

你可能感兴趣

段晓东：构筑NICC新型智算中心加速大模型发展

构筑新型智算中心加速大模型发展的报告摘要

报告要点：

你可能感兴趣

算力网络原创技术与NICC新型智算中心技术体系

2023年NICC新型智算中心技术体系白皮书

陈佳媛：中国移动NICC新型智算中心技术体系解读

Meta重磅发布最强开源大模型，移动开启新型智算中心采购招标

段晓东：从IPv6+到算力路由，开创算网一体新发展