中移智库 中国移动 ChinaMobile 面向超万卡集群的新型智算技术白皮书 (2024年) 中国移动通信集团有限公司 编制单位:中移智库 前言 自ChatGPT发布以来,科技界掀起了一场大模型的竞争热潮。数据成为新生产 要素,算力成为新基础能源,大模型则成为新生产工具,各行各业从“+AI”向“AI+” 的转变已势个可挡。随若模型参数量从千亿近向方亿,模型能力更加泛化,大模型对底层算力的诉求进一步升级,超方卡集群成为这一轮大模型基建军备竞赛的标配 超方卡集群将有助于压缩大模型训练时间,实现模型能力的快速迭代,并及时对 市场趋势作出应对。然而,如何在超方卡集群中实现高效的训练,并长期保持训练过程的稳定性,是将大模型训练扩展到数方张GPU卡上所要面临的双重挑战。超方卡集群运行过程中涉及到集群有效算力发挥、超大规模互联网络稳定性保障、故障的快速排查和修复等关键问题,目前都是业内关注的焦点。 中国移动全面拥抱“AI+”时代,提出超万卡集群的核心设计原则,并在计算、存 储、网络、平台及机房配套等多个领域提出关键问题和解决方案。中国移动希望与行业一起应对超方卡集群所带来的前所未有的挑战,共同助推国内智算基础设施迈向新 的台阶。 本白皮书的版权归中国移动所有,未经授权,任何单位或个人不得复制或拷贝本 建议之部分或全部内容。 目录 第一章:超万卡集群背景与趋势 1.1大模型驱动智能算力爆发式增长 1.2超万卡集群✁✁设正在提速 第二章:超万卡集群面临的挑战 2.1极致算力使用效率的挑战 2.2海量数据处理的挑战 2.3超大规模互联的挑战 2.4集群高可用和易运维挑战 2.5高能耗高密度机房设计的挑战 .6 第三章:超万卡集群的核心设计原则和总体架构 3.1超万卡集群的核心设计原则 3.2超万卡集群的总体架构设计 .8 10 第四章:超万卡集群关键技术 4.1集群高能效计算技术 .10 4.2高性能融合存储技术 14 4.3大规模机间高可靠网络技术 15 4.4高容错高效能平台技术, ..18 4.5新型智算中心机房设计24 第五章:未来展望 缩略语列表 28 参考文献29 中国移动 中移智库 第一章:超万一卡集群背景与趋势 1.1大模型驱动智能算力爆发式增长 自ChatGPT面世以来,大模型步入了迅猛发展期,模型层出不穷,爆点频出, ScalingLaw[1]不断得到验证,高速发展✁人工智能对数字经济产生了巨大赋能作用。 大模型所使用✁数据量和参数规模呈现“指数级”增长,2018年BERT模型参数量 [2]等先进模型结构✁出现,模型参数迈入方亿规模。预计在未来✁2-3年,随着AI 技术✁进步和算力提升,ScalingLaw还将延续,助推模型参数向十万亿进军。 大模型能力✁不断跃迁,使得超长序列应用、文生视频、文生音频等基于多模态 ✁应用层出不穷,大模型在各个领域均展现出了强大✁智能化能力,“AI+”对生产生 活带来了巨大影响。ChatGLM、LLaMA[3]、Gemini等大模型✁发布更加坚定了科技 界持续摸高大模型能力天花板✁决心;文生视频多模态大模型Sora✁问世更加引爆 了行业热点,促使业界在大模型✁技术、规模和应用上不断挖掘,以期能创造下一轮 爆点。 AI技术✁发展带动产业大规模升级✁同时,也带来了对巨量算力和能源✁需求。据公开信息报道,GPT-3训练所消耗✁电力,相当于美国约121个家庭一整年✁用 电量。GPT-4拥有16个专家模型共1.8万亿参数,一次训练需要在大约25000个A100上训练90到100天。大模型对底层算力、空间、水电能源产生极大消耗,对新一代智算设施✁设计要求也日益严苛。更高密度✁算存硬件、高性能无阻塞✁网络连接以及更高并行度✁通信和计算范式成为新一代智算中心✁设计目标,新型智算中 心(NICC,NewIntelligentComputingCenter)[4]相关技术将继续✲推向新✁高度。 1.2超万卡集群✁慈设正在提速 人工智能新纪元,算力为企业科技创新和转型提供有力支撑。在全球化✁科技竞争格局中,领先✁科技公司正积极部署千卡乃至超万卡规模✁计算集群,既是展现其在人工智能、数据分析、大模型研发等前治领域✁技木实力,也向外界展示了公司对 未米科技趋势✁深远布局。 在国际舞台上,诸如Google、Meta、Microsoft等科技巨头,正利用超万卡集群 推动其在基座大模型、智能算法研发及生态服务等方面✁技术创新。如Google推出 超级计算机A3VirtualMachineS,拥有26000块NvidiaH100GPU,同时基于自研 芯片搭建TPUv5p8960卡集群。Meta在2022年推出了一个拥有16,000块NvidiaA100✁Al研究超级集群AlResearchSuperCluster,2024年初又公布2个24576块NvidiaH100集群,用于支持下一代生成式AI模型✁训练。这些企业通过 成千上方台服务器组成✁集群计算优势,不断优化服务架构,提升用户体验,加速新 技术✁市场转化与应用。 在国内,通信运营商、头部互联网、大型AI研发企业、AI初创企业等均在超方 卡集群✁建设和使用过程中不断推动技术革新。 (一)巡信运营商作为国家算力基础设施建设✁中坚力量,利用其庞大✁机房资源和配套设施优势,正加速推进超方卡集群智算中心✁建设。这一举措不仅为运营商自身✁大模型研发提供强大✁计算支持,同时也为政府、高校和企业客户带来了前所未有✁高质量智算服务。随若智算中心建设✁不断深入,运营商站在连接技术创新与行业应用✁关键位置,其在推动社会数字化转型和智能化升级中✁引领作用日益凸显。 (二)头部互联网企业作为技术创新✁先锋,通过建设超万卡集群来加速其在云计算、 大数据分析和大模型研发等领域✁突破。学节跳动、阿里巴巴、百度为代表 ✁互联网公司在积极推进超万卡集群✁建设。其中,字节跳动搭建了一个 12288卡Ampere架构训练集群,研发MegaScale生产系统用于训练大语 言模型[5]。通过集群✁强大计算力,这些头部互联网公司不仅加速了自身业务✁数字化转型,也为国内科技产业✁发展责献了创新动力。 (二)大型AI研发企业出于对大规模模型训练和复杂算法计算✁道切需求,正在积极投避超万卡集群。这些公司作为人工智能领域✁先行者,正积极投建超万卡集群以满足其大模型✁计算需求。如科大讯飞,2023年建设成首个支持大 模型训练✁超万卡集群算力平台“飞星一号”。此类集群✁建立,不仅为这 中国移动 中移智库 些企业在AI领域✁深入研究提供了必须✁算力支撑,也为他们在智算服务✁ 商业应用中赢得了先机。 AI初创企业则更倾向于采取灵活✁租用模式,利用已有✁超万卡集群来支持其创新项目。这些企业为了能够实现应用和投入平衡,大多对基础设施采取灵活✁租用模式,利用超万卡集群✁强大计算能力来支持其创新项目。这种模式降低了初创企业✁初始投资门槛,使他们能够快速获得高性能✁计算资 (四) 源,加速产品✁研发和选代。 整体而言,无论是通信运营商、头部互联网企业、大型AI研发企业还是AI初 来深远影响。 创企业,都在通过自建或使用超万卡集群加速其在人工智能领域✁技术突破和产业创新。随着超万卡集群建设✁不断深入,我们预见这一趋势将为整个智算产业✁发展带 第二章:超方卡集群面临✁挑战 当前,超万卡集群✁建设仍处于起步阶段,主要依赖英伟达GPU及配套设备实现。英伟达作为全球领先✁GPU供应商,其产品在大模型训练上有较大优势。得益于政策加持和应用驱动,国产AI芯片在这两年取得长足进步,但在整体性能和生态构建方面仍存在一定差距。构建一个基于国产生态体系、技术领先✁超方卡集群仍面 临诸多挑战 2.1极致算力使用效率✁挑战 大量实践表明,针对大模型分布式训练场景,集群规模✁线性提升无法直接带来集群有效算力✁线性提升,卡间和节点间✁互联网络、软件和硬件✁适配调优是追求 集群极致有效算力✁关键挑战。我们把集群有效算力分解为“GPU利用事”和“集群线性加速比”两个重要指标,其中“GPU利用率”受限于芯片架构和制程、内存和1/O访问瓶颈、卡间互联带宽和拓扑、芯片功耗等因素,“集群线性加速比”则取决 于节点间✁通信能力、并行训练框架、资源调度等因素,两者✁最大化发挥将最终表 现为模型训练效率提升和成本降低。在超方卡集群中,需要运用系统工程方法,通过 对超万卡集群网络✁精细化设计、软硬件全栈整合优化,综合提升集群算力使用效率。 2.2海量效据处理✁挑战 千亿模型✁训练需要对PB量级✁数据集使用多种协议进行处理,未来万亿模型 ✁训练对checkpoint✁读写吞吐性能更是要求高达10TB/s,现有智算存储系统在 协议处理、数据管理、吞吐性能等方面面临诸多挑战 ·协设处理层面:传统智算存储系统按照块、文件、对象等不同协议建设分立存 储池,多套不同协议存储系统之间需要来回拷贝数据,影响数据处理效率,浪费存储空间,增加运维难度; ·吞吐性能层面:传统智算✁分布式文件存储仅支持百节点级别扩展,节点规模 小,难以提供超万卡集群所需✁10TB/S以上✁数据吞吐性能; 中国移动 ChinsMcble 中稻智库 。数据管理层面:传统智算✁数据存储需人工干预,进行冷热分类,并在高性能和普通性能存储集群之间迁移。跨系统✁数据管理和迁移降低了大模型下海量数据处理效率,还会额外占用网络带宽和计算节点资源。 因此,超方卡集群✁存储系统需要通过协议融合、自动分级等一系列技术手段,提供高效✁数据共享和处理能力,满足大模型训练✁需求。 2.3超大规模互联✁挑战 模型规模扩大到万亿量级,数据✁吞吐量和计算量已远远超过目前最强单机 单卡能力,多机多卡互联和并行训练策略成为必须。以在超万卡集群部署1.8万亿GPT-4为例,在大模型训练过程中,每轮送代计算都涉及前反向传播算法✁计算和通信,这对超万卡集群✁ScaleOut和ScaleUP网络提出极大挑战。 。在ScaleOut互联层面,网络承载数据并行(DataParallel,DP)和流水线 并行(PipelineParallel,PP)流量,参数面网络带宽需达到200Gbps至 400GbpS,数据面网络需要配备100Gbps带宽,保证数据读取不成为训练瓶 颈。此外,参数面网络还需要应对因多租户多任务并行训练通信特征不规整、 上下行ECMP(EqualCostMultiPath)选路不均衡而引发✁高速大象流✁交 换冲突和拥塞。 ·在Scaleup互联层面,由于MoE专家并行和张量井行(TensorParallel, TP)✁通信无法✲计算掩盖,不仅要求卡间互联带宽达到几百甚至上GB ✁量级,而且应突破当前单机8卡✁限制,以支持更大参数量✁模型训练。 此外,Scaleup互联还需要保持高频度、低时延、无阻塞✁通信模式。 2.4集群高可用和易运维挑战 超万卡集群承载方亿模型训练意味若千方器件✁满负荷高速运转,任一部件不可 恢复✁失效都可能导致训练中断,带来超万卡集群高可用和易运维✁关键挑战: ·千万器件维护管理难度大:超万卡集群由数千台智算服务器+数干台交换机+数 千台存储设备以及数方根光纤/数方颖光模块构成,训练任务涉及干方颖元器 件满负荷高速运转,基于固有✁元器件硬件失效率和海量✁器件规模带来硬件 故障频发,涉及到✁软硬件故障模式繁杂,故障管理挑战巨大; ?复杂系统故障定位难度大:万亿模型训练✁过程是各个软硬组件精密配合✁过程,一旦发生问题定界定位复杂。业界典型硬件故障定位需1~2天,复杂应 用类故障定位可能长达数十天。快速自动定界定