前言 ChatGPT系列大模型的发布,不仅引爆全球科技圈,更加夯实了人工智能(ArtificialIntelligence,AI)在未来改变人类生产生活方式、引发社会文明和竞争力代际跃迁的战略性地位。 当前各国政府已全面布局AI,作为AI技术发展的关键底座,智算中心的建设和部署在全球范围内提速。然而,早期建设的智算中心,以承载中小模型、赋能企业数智化转型为主要目的,在技术标准、生态构建、业务发展和全局运营等各方面仍有待提升。当追逐大模型成为行业标准动作,面向大模型的新型智算中心(NewIntelligentComputingCenter,NICC)成为新时期关注的焦点。 新型智算中心的建设是一个系统工程,需要“算存网管效”多个维度的协同设计。中国移动从自身战略转型出发,为构建智能服务的核心和基础,定义新型智算中心技术体系架构,并面向未来大模型孵化,从新互联、新算效、新存储、新平台和新节能等五个领域提出下一代技术演进建议,希望本白皮书能够为合作伙伴在新型智算中心的硬件设备选型、算力集群设计、机房散热规划、软硬工程调优、全局运营调度等多个方面的技术路线选型提供帮助。 本白皮书在中国移动集团有限公司技术部和计划建设部指导下,由研究院牵头编写,期间得到了来自华为、浪潮信息、新华三、曙光、超聚变、中兴、寒武纪、燧原、壁仞、趋动科技、星网锐捷、昆仑芯、天数智芯、盛科、云合智网、云豹智能、云脉芯联、星云智联等多家企业的大力支持。 新型智算中心技术体系的构建与成熟需要产业链各方凝聚共识,明确行业应用和服务的共性要求,中国移动希望同行业一道,共同推动智算关键技术成熟,共同繁荣国内AI生态发展。 中国移动NICC新型智算中心技术体系白皮书 ChinaMobileNewIntelligentComputingCenterTechnologyFrameworkWhitePaper 目录contents 第一章智算中心行业发展现状/04 1.1智能算力跃升为全球第一大算力,智算中心建设如火如荼/04 1.2早期智算中心在技术、标准、生态、运营等方面仍面临挑战/07 第二章NICC新型智算中心技术体系架构和发展路径/08 2.1NICC新型智算中心技术体系架构/08 2.2NICC新型智算中心技术发展路径/09 第三章新互联——打破算力瓶颈/11 3.1集群内的高速卡间互联/11 3.1.1大模型分布式训练需要高速卡间互联/113.1.2“七国八制”的卡间高速互联技术现状/14 3.1.3未来万亿级模型的卡间高速互联演进建议/16 3.2集群间的高速无损网络/17 3.2.1InfiniBand与RoCE是当前主流方案/17 3.2.2全调度以太网突破无损以太性能瓶颈/19 3.2.3智算中心网络关键技术演进/23 第四章新算效——重塑计算架构/25 4.1下一代AI芯片设计思路/25 4.2存算一体构建新型计算范式/26 4.3DPU实现计算、存储和网络的深度协同/28 第五章新存储——挖掘数据价值/31 5.1计算与存储的交互过程/31 5.2智算场景存储面临的三大挑战/33 5.3多协议融合存储贯通异构数据/33 5.4全局统一存储打破单体局限/34 5.5基于计算总线构建统一内存池/35 第六章新平台——融通无限生态/37 6.1池化技术优化资源使用效率/37 6.2算力原生融通多样算力生态/40 6.3分布式训练提升模型训练效率/41 6.4跨域分布式调度促进广域资源利用/43 第七章新节能——实现可持续发展/45第八章总结和倡议/48 缩略语列表/50参考文献/52 中国移动NICC新型智算中心技术体系白皮书 ChinaMobileNewIntelligentComputingCenterTechnologyFrameworkWhitePaper 1 智算中心行业发展现状 1.1智能算力跃升为全球第一大算力,智算中心建设如火如荼 1956年第一次AI发展浪潮信息伊始,60多年来,从理论探索到大数据驱动,从深度学习到大模型智能涌现,AI正在成为一项新兴的通用型技术,向多场景、规模化、AIGC(AIGeneratedContent)等方向快速演进。智能算力作为AI的底座型技术迎来需求井喷。据统计,到2030年,全球智能算力需求增长约390倍,增速远超摩尔定律。据《中国算力发展指数白皮书(2022)》指出,我国智能算力也在近几年保持快速增长态势。2021年我国智算规模已达到104EFLOPS,占比超过总算力的50%,预计到2030年将升至70%,成为算力的主要增长极。智算成为全球第一大算力已是大势所趋。 随着AI在赋能产业发展、促进数实融合方面发挥出愈加显著的作用,各国政府纷纷发布政策引导其发展。美国为加强其在AI领域研发和部署的领导地位,于2019年签署《美国人工 图1-1美国智能超算中心 智能倡议》(AmericanAIInitiative)[1],旨在从国家战略层面重新分配资源,用于AI研发,以应对来自“战略竞争者和外国对手”的挑战。之后,在2021年颁布《美国创新与竞争法案》[2],高度关注AI与机器学习、高性能计算、半导体等十大关键技术领域。欧盟在2021年发布《2030数字指南针:欧洲数字十年之路》[3],要求到2030年75%的欧盟企业使用云计算、大数据和AI技术。我国也高度重视AI技术发展,自2017年以来国家各部委和地方政府相继出台政策,指导AI产业发展规划,鼓励企业加大人才引进和研发力度,并明确指出要积极推动智算中心有序发展。至此,智算中心作为一种新型算力基础设施为大家所熟悉。不同于传统的云数据中心和超算中心,智算中心是以GPU、AI加速卡等智能算力为核心、集约化建设的新型数据中心,为人工智能应用提供所需的算力服务、数据服务和算法服务,使能各行各业数智化转型升级。 智算中心的战略地位不断提升,为构造未来竞争发展优势,很多国家都在积极开发和部署智算中心。其中,美国能源部及国家科学基金会主导,将智算中心和超算中心结合,建设超大规模智能超算中心,为科学研究提供高性能计算资源(如图1-1),例如,橡树岭国家实验室的Summit(3.4E)[4],阿贡国家实验室的Polaris和Aurora(约10E)[5],劳伦斯伯克利实验室的Perlmutter(3.8E)等,这些智能超算中心往往具有单体算力大、技术领先等特点。美国科技巨头也是智算中心的主要建设者,包括谷歌的开放机器学习中心(9E),特斯拉Dojo集群(据称2024年末规模达到100E),MetaAI超级计算机(9.9E)等。 05 中国移动NICC新型智算中心技术体系白皮书 ChinaMobileNewIntelligentComputingCenterTechnologyFrameworkWhitePaper 图1-2国内部分智算中心 国内智算中心建设热潮始于2020年,目前已有40+城市建成或正在建设智算中心(如图1-2),包括武汉人工智算计算中心(200P)、南京智能计算中心(800P)、合肥先进计算中心(12P)、鹏城云脑II(1E)等,其中12个位于“东数西算”八大枢纽,这些智算中心主要由地方政府与企业合建,总体投资规模超千亿,旨在带动当地产业智能化升级。国内互联网和AI企业自建的智算中心是国内智能算力的重要组成,如阿里在张北和乌兰察布建设的总规模达15E的智算中心,旨在结合智能驾驶、智慧城市等业务,探索云服务后的智算服务新业态;百度在山西阳泉建设规模4E的智算中心,孵化国内首个正式发布的大模型“文心一言”;商汤作为国内头部AI企业,投资56亿在上海临港建设人工智能计算中心,规模超4E,主要面向智慧商业、智慧城市、智慧生活和智能汽车四大板块,发展AIaaS(AIasaService)服务。 1.2早期智算中心在技术、标准、生态、运营等方面仍面临挑战 当前智算中心主要以单供应方全栈体系构建为主,尚未形成业界统一的设计方案,因此各地智算中心在技术、标准、生态、运营等方面仍面临挑战。 在技术方面 集群算力。 早独期立建的设文的件智存算储中,心互以联承方载式中则小以模节型点为内主PC,IeA通I服信务与器节大点多间是传P统C以Ie太机网型为,主配。备随粒着度通提用供大算模力型服的务普的及模,式智,算转中变心为的支设持计巨思量路并需行要计从算原,先提以供单高芯吞片吐、高服能务效器的 在标准方面 由案于深各度地绑智定算,中容心易大形都成是多当种地派政系府。与亟需AI通芯过片制、定整行机业厂标家准合,作一建方设面为降主低,客技户术学方习的和高使质用量的发时展间。成本,另一方面加强产业链上下游企业的协同,促进智算产业 在生态方面 因相为比之AI下是国软内硬A深I度起耦步合较的晚技,术在栈芯,片国算外力主和流软产件品栈“适先配入方为面主均”存,在主差导距生。态在发智展算,生定态基竖础井。式发展的当下,需要加强引导,为后续AI应用的适配和跨架构迁移奠 在运营方面 07 域的全局算力调度,提升算力高质量供给和数据高效率流通。 各全地局智协算同中,心随的着服东务数对西象算多、为东区数域西内渲的等行应业用客需户求、不科断研丰院富所,和需高要校提,前较布少局考跨虑区由此可见,未来智算中心亟需朝着技术先进、标准统一、软硬协同、兼容开放的方向发展。 2 N技I术C 体新系型架智构算和中发心展路径 中国移动NICC新型智算中心技术体系白皮书 ChinaMobileNewIntelligentComputingCenterTechnologyFrameworkWhitePaper 2.1NICC新型智算中心技术体系架构 结合大模型技术的发展趋势以及对智算中心建设和使用现状的分析,我们认为ChatGPT等预训练大模型的出现,必将带来AI基础设施的变革,传统的算力堆叠方式已然失效,智算中心需要在互联、算效、存储、平台、节能五大领域进行系统化的重构,才能支撑起大模型对千行百业的革新与改造。为此,中国移动结合自身转型战略和一线客户需求,提出NICC新型智算中心(NewIntelligentComputingCenter)。 区别于早期建设的智算中心,NICC新型智算中心是以高性能GPU、AI加速卡等集群算力为核心,集约化建设的E级超大规模算力基础设施,具备从硬件设施到软件服务的端到端AI全栈环境,支撑超大规模、超高复杂度的模型训练和推理业务,最终赋能行业数智化转型升级。 NICC技术体系由“三层两域”构成(如图2-1),分别是基础设施层、智算平台层、应用使能层、智算运维域和智算运营域。其中基础设施层提供计算、存储、网络等硬件资源;智算平台层作为资源管理的核心,提供裸金属、虚机和容器等多样化实例以及细粒度的资源池化能力,在此之上搭建算力原生平台提供应用跨架构迁移能力;应用使能层集成行业主流AI开发框架以供应用开发调用。智算运维域主要负责对底层IaaS(InfrastructureasaService)资源进行管理维护,确保系统的稳定运行;智算运营域对接外部客户,提供计量计费、访问、交易等界面,对内根据上层任务进行资源编排调度。 图2-1新型智算中心技术体系架构 2.2NICC新型智算中心技术发展路径 为释放智能算力极致性能,NICC的设计方案既要考虑计算、存储、网络三大维度的横向协同,也要兼顾软件平台与硬件资源的纵向协同,同时锚定技术先进、标准统一、软硬协同、兼容开放的目标,广泛且高效地支撑智能化应用场景。我们认为NICC的发展将分为两个时期: 1)集群时期:这个时期最显著的特征是数据及模型出现巨量化趋势,千亿级的模型已经出现,对智算底座的算力能力和扩展性均提出高要求。在设备形态方面,GPU、AI芯片以扣卡模 组为主,服务器形态多为单机8卡,DPU按需引入解决裸金属管理、存储加速等业务痛点;硬件资源开始按照集群的方式部署,相比提升单芯片算力,芯片间的高速互联方案落地更为关键。互联方案以服务器节点为界限,节点内外高速互联技术各自