目录1引言2Pangu Ultra MoE模型架构和训练方法2.1基础架构与模型效果. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .2.2范数稳定的模型架构. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .2.3专家负载均衡优化. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .2.4MTP扩头策略. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .2.5迭代式强化学习. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .103推理优化3.1并行优化. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .3.2量化压缩优化. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .134结论 33456811113.1.1并行策略. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .113.1.2融合大算子. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .123.2.1W8A8量化. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .133.2.2W4A4量化. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .133.2.3KV量化. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .13142 1引言随着大语言模型(Large Language Model, LLM)在通用智能领域取得突破性进展,模型规模持续扩展成为提升能力的主要路径[13, 17, 4, 8, 6, 1, 2]。然而,训练百亿甚至千亿参数模型所需的算力与成本居高不下,训练稳定性亦面临严峻挑战。因此,构建更加高效可扩展的模型架构,已成为业界广泛关注的研究方向。在此背景下,稀疏的混合专家模型(Mixture-of-Experts, MoE)[11]因其显著降低计算开销并提高参数利用率而受到高度关注,成为构建超大规模模型的重要技术选项。MoE结构在保持模型容量的同时显著降低了训练和推理成本[8],逐步在实际系统中落地。然而,MoE架构也引入了一系列新问题,例如梯度范数剧烈波动、专家负载不均衡、训练推理方式不一致等,这些问题严重限制了其可扩展性和部署效果。在MoE的探索上,此前发表的技术报告Pangu Ultra MoE [15]展示了整体的MoE设计,并讲解了在基础设施上的优化,性能上在开源评测集上达到一流水平。本文针对MoE模型训练与推理中的关键瓶颈所进行的一系列架构设计与策略优化,包括归一化结构、参数初始化、负载均衡机制、推理效率提升、量化压缩以及专家激活剪枝等多个技术维度进行系统阐述。Pangu Ultra MoE在模型稳定性方面继承了Pangu Ultra [19]基于深度缩放的Depth-Scaled Sandwich-Norm与TinyInit,两者结合有效缓解了梯度范数突刺问题,提升了训练的稳定性与收敛效率。在负载均衡方面,设计了专家并行组粒度的辅助损失函数(EP-Group Auxiliary Loss),在正则强度与通信代价间取得了良好平衡,从而显著改善专家负载不均衡的问题。此外,我们还探索了Multi-Token Prediction (MTP)多头扩展训练以及多token的投机推理机制,后续可用于提升PanguUltra MoE训练和推理的效率。进一步地,在模型后训练阶段,我们构建了强化学习训练系统,增强数据效率,保障多能力协同优化,有效避免能力提升的不均衡问题。在推理方面,Pangu Ultra MoE进行了多层次优化。通过PD分离并结合vLLM调度策略及多种并行配置,在Ascend 910集群上显著提升了推理吞吐并降低延迟;融合大算子和通信优化有效提升了NPU利用率;量化方面引入W8A8/W4A4/KV压缩等多级量化机制,在保持精度的前提下提升了内存与计算效率。综上所述,Pangu Ultra MoE展示了在超大规模MoE模型构建中兼顾稳定性、性能与效率的系统性设计方案,并通过精细推理优化与激活压缩策略,推动稀疏架构在实际部署中的落地。接下来的章节将详细介绍Pangu Ultra MoE的架构设计、训练机制、推理系统、实验评估及工程经验,深入剖析其关键技术细节与设计动因。2Pangu Ultra MoE模型架构和训练方法Pangu Ultra MoE的设计围绕充分释放Ascend NPU平台的计算潜力展开,在结构的选择上采用自主开发的系统级模拟器进行搜索,得到兼顾计算效率、存储约束与通信开销的模型。本文将系统介绍Pangu Ultra MoE的核心架构特性、范数稳定策略、负载均衡优化机制与多Token推理加速方法,展示其如何在硬件资源与模型性能之间取得高效折中。 3 2.1基础架构与模型效果在针对Ascend NPU平台的大模型系统设计中,我们结合计算、通信与内存等多方面因素,构建了完整的系统级模拟器,并基于约一万个不同的MoE架构组合,系统性地进行了架构搜索。最终得到一个约718B参数量的结构,它有61层,隐层大小为7680,每一层的注意力模块有128个头,每层MoE结构包含1个共享专家与256个路由专家,每个token激活8个专家,每个路由专家FFN中间维度均为2048。具体的搜索细节可以参考文档[15]。在Ascend NPU上的亲和性优化特性:结合Ascend平台的架构特性与模拟结果,我们对最终选中的模型结构进行如下分析:•隐藏维度贴合硬件:设置7680维隐藏层,精准匹配DaVinci芯片的16×16 MatMul单元,充分发挥Cube核心的计算潜力。•层数亲和流水线并行:设置61层Transformer结构,并预留额外MTP层空间,保障计算负载均衡的PP/VPP流水线调度,减少pipeline气泡,提升整体并行效率。•专家规模符合幂次规律:路由专家数量设为28= 256,在TP×EP并行下提升通信效率,有效加速分布式训练。Pangu Ultra MoE的架构和训练优化特性:在模型架构设计与训练流程中,我们亦引入了多项关键优化:•超大规模和超高稀疏比:采用256个路由专家,每个token激活8个专家,模型总参数量718B,激活参数量为39B。•MLA注意力机制:引入MLA(Multi-head Latent Attention),有效压缩KV Cache空间,缓解推理阶段的内存带宽瓶颈,优于传统GQA方案。•MTP多头扩展:采用单头MTP进行训练,后续复用MTP参数扩展至多头结构,实现多Token投机推理,加速整体推理过程。•Dropless训练:采用Dropless训练可以避免Drop&Pad训推不一致问题,并且提升训练的数据效率。•RL训练:采用迭代难例挖掘与多能力项均衡的奖励函数,并参考GRPO算法,提升了模型的训练效率与最终推理性能。Pangu Ultra MoE的预训练阶段在6k到10k张NPU上进行,全流程采用dropless训练模式。预训练阶段进行了长序列扩展,最终模型具备128k长序列能力。在后训练阶段,Pangu Ultra MoE移除了负载均衡辅助损失,保留专家间已有的特化能力,从而进一步提升模型对目标数据的学习效率。最终模型在多个权威开源评测集上展现出稳健性能,如表1所示,整体效果具备一定优势。 All-to-All4 表1: Pangu Ultra MoE与其他代表性MoE指令模型在多种评估通用语言理解与推理能力的基准任务上的比较。每行中加粗的数值表示该项最佳结果,星号(∗)表示由我们自行测试所得结果。BenchmarkQwen2.5MiniMax DeepSeek DeepSeekPangu Ultra MoEPlusText-01V3-0324R1ArchitectureMoEMoEMoEMoEMoE# Activated Params-46B37B37B39B# Total Params-456B671B671B718BGeneralC-Eval--87.9∗91.890.8CLUEWSC--94.3∗92.894.8C-SimpleQA-67.472.4∗63.770.3IF-Eval86.389.185.9∗83.384.9MMLU-88.587.4∗90.891.5MMLU-Pro72.575.781.284.083.5ReasoningAIME2024--59.479.881.3AIME2025--39.8∗70.070.0GPQA-Diamond-54.468.471.575.3LiveCodeBench51.4-49.265.964.3MBPP+-71.777.3∗81.2∗81.2MATH500--94.097.397.42.2范数稳定的模型架构在大规模模型的训练过程中,模型的稳定性和性能优化显得尤为关键。随着模型规模的增加,训练过程普遍会出现梯度范数不稳定的问题,表现为频繁的梯度范数突刺现象,这通常是由于模型结构复杂、网络深度增加以及参数初始化不当等原因引起的。这显著影响了模型的收敛速度和最终性能。为了提高模型的训练稳定性,归一化和参数初始化方法起着至关重要的作用。归一化能够有效调节特征或激活的尺度,确保梯度在网络中更加平稳地传播,避免梯度过大或过小导致的优化困难。良好的参数初始化则能使网络参数分布更合理,减少网络初期的不稳定波动,加快模型收敛速度,并提升最终性能。Pangu Ultra MoE延续了Pangu Ultra [19]稠密模型的设计理念,继续应用了Depth-Scaled Sandwich-Norm(DSSN)和TinyInit方法,以更有效地稳定梯度并提高训练过程的稳健性。经过实践验证,获得了与稠密模型一致的结论,即此设计能够显著增强模型的稳定性,并加快收敛速度。Depth-Scaled Sandwich-Norm(DSSN):传统的Pre-LN结构容易因为子层输出规模波动而导致训练不稳定。为解决这一问题,DSSN在每个子层输出后加入额外的层归一化,并引入深度缩放的初始化方式。具体地,通过将层归一化的可训练γ参数初始化为与网络深度的平方根成反比的数值,从而稳定网络各层的输出尺度。这种结构能够有效抑制梯度爆炸或消失,降低梯度范数波动,提升模型的收敛性。DSSN的具体计算公式如下:5 其中,L为模型的层数,cattn和cmlp分别为注意力层与前馈网络(FFN)层初始输出的标准差。在Pangu Ultra MoE中,设定γattn为0.036,γmlp为0.019。TinyInit方法:模型初始化对训练稳定性与性能至关重要。现有研究表明初始化尺度影响模型在推理与记忆任务上的表现。Transformer模型通常采用较小的初始化尺度,而TinyInit方法提出了一种同时考虑模型深度与宽度的初始化方案,即采用标准差为√12