行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

Pangu Ultra MoE 模型架构与训练方法

2025-05-28 华为盘古团队 Max

Pangu Ultra MoE 是一款在 Ascend NPU 平台上全流程开发的准万亿参数 MoE 大模型，其在开源评测集上达到一流水平。本文介绍了 Pangu Ultra MoE 面向超大规模参数与高稀疏比场景下的关键技术方案，涵盖模型架构、训练方法和高效推理系统等方面。

模型架构与训练方法：

基础架构：通过系统级模拟器进行架构搜索，最终得到约 718B 参数量的模型，包含 61 层，隐层大小为 7680，每层注意力模块有 128 个头，每层 MoE 结构包含 1 个共享专家与 256 个路由专家，每个 token 激活 8 个专家。
范数稳定的模型架构：引入 DSSN 稳定结构与 TinyInit 小初始化策略，有效缓解训练初期的梯度波动，显著提升模型的稳定性与收敛效率。实验表明，DSSN/TinyInit 相比 Pre-LN/Init0.006，突刺比例减少了 51%。
专家负载均衡优化：针对高稀疏比 MoE 架构中的负载不均问题，设计了 EP-Group Auxiliary Loss，在专家并行组粒度引入正则项，兼顾通信效率与正则强度，实现专家激活均衡并促进特化。实验表明，EP-Group 负载均衡 loss 在大部分任务上都有显著优势，平均提升了 1.5 个百分点。
MTP 扩头策略：通过扩展 Multi-Token Prediction（MTP）多头能力，支持多 token 投机推理，后续可用于 Pangu Ultra MoE 以提升模型生成质量和推理速度。实验表明，后期 MTP 扩展能够达到多 token 投机推理的效果。
迭代式强化学习：在模型后训练阶段，构建了强化学习训练系统，增强数据利用效率与能力协同，缓解能力增长不均衡。

推理优化：

并行优化：采用 PD 分离技术为预填充和解码实例部署不同的并行化策略，实现极致的融合大算子优化降低内存访问开销。在 Atlas 800I A3 384 卡集群，将 EP 规模扩展到 144 卡以获得更低的解码延迟。
融合大算子：实现了一系列融合大算子以提高模型推理效率，包括 MLA 预处理融合大算子、加法 & RmsNorm & 量化、门控 & Top-K 等。
量化压缩优化：引入 W8A8/W4A4/KV 等多级量化机制，在保持精度的前提下提升了内存与计算效率。W8A8 量化显存需求减少约一半，吞吐能力提升 20%；W4A4 配置在多种任务中均展现出良好的鲁棒性。

结论： Pangu Ultra MoE 在模型稳定性、训练效率与推理性能方面实现了系统性优化，展现出高稀疏比大模型在硬件受限环境下的良好扩展性与工程可行性。通过软硬件协同设计，模型在保障训练稳定的同时有效压缩了推理成本，并提升了整体吞吐性能，体现出稀疏化技术在构建超大规模模型中的应用潜力，为大模型稀疏架构的发展与落地提供了重要参考。

目录1引言2Pangu Ultra MoE模型架构和训练方法2.1基础架构与模型效果. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .2.2范数稳定的模型架构. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .2.3专家负载均衡优化. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .2.4MTP扩头策略. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .2.5迭代式强化学习. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .103推理优化3.1并行优化. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .3.2量化压缩优化. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .134结论 33456811113.1.1并行策略. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .113.1.2融合大算子. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .123.2.1W8A8量化. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .133.2.2W4A4量化. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .133.2.3KV量化. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .13142 1引言随着大语言模型（Large Language Model, LLM）在通用智能领域取得突破性进展，模型规模持续扩展成为提升能力的主要路径[13, 17, 4, 8, 6, 1, 2]。然而，训练百亿甚至千亿参数模型所需的算力与成本居高不下，训练稳定性亦面临严峻挑战。因此，构建更加高效可扩展的模型架构，已成为业界广泛关注的研究方向。在此背景下，稀疏的混合专家模型（Mixture-of-Experts, MoE）[11]因其显著降低计算开销并提高参数利用率而受到高度关注，成为构建超大规模模型的重要技术选项。MoE结构在保持模型容量的同时显著降低了训练和推理成本[8]，逐步在实际系统中落地。然而，MoE架构也引入了一系列新问题，例如梯度范数剧烈波动、专家负载不均衡、训练推理方式不一致等，这些问题严重限制了其可扩展性和部署效果。在MoE的探索上，此前发表的技术报告Pangu Ultra MoE [15]展示了整体的MoE设计，并讲解了在基础设施上的优化，性能上在开源评测集上达到一流水平。本文针对MoE模型训练与推理中的关键瓶颈所进行的一系列架构设计与策略优化，包括归一化结构、参数初始化、负载均衡机制、推理效率提升、量化压缩以及专家激活剪枝等多个技术维度进行系统阐述。Pangu Ultra MoE在模型稳定性方面继承了Pangu Ultra [19]基于深度缩放的Depth-Scaled Sandwich-Norm与TinyInit，两者结合有效缓解了梯度范数突刺问题，提升了训练的稳定性与收敛效率。在负载均衡方面，设计了专家并行组粒度的辅助损失函数（EP-Group Auxiliary Loss），在正则强度与通信代价间取得了良好平衡，从而显著改善专家负载不均衡的问题。此外，我们还探索了Multi-Token Prediction (MTP)多头扩展训练以及多token的投机推理机制，后续可用于提升PanguUltra MoE训练和推理的效率。进一步地，在模型后训练阶段，我们构建了强化学习训练系统，增强数据效率，保障多能力协同优化，有效避免能力提升的不均衡问题。在推理方面，Pangu Ultra MoE进行了多层次优化。通过PD分离并结合vLLM调度策略及多种并行配置，在Ascend 910集群上显著提升了推理吞吐并降低延迟；融合大算子和通信优化有效提升了NPU利用率；量化方面引入W8A8/W4A4/KV压缩等多级量化机制，在保持精度的前提下提升了内存与计算效率。综上所述，Pangu Ultra MoE展示了在超大规模MoE模型构建中兼顾稳定性、性能与效率的系统性设计方案，并通过精细推理优化与激活压缩策略，推动稀疏架构在实际部署中的落地。接下来的章节将详细介绍Pangu Ultra MoE的架构设计、训练机制、推理系统、实验评估及工程经验，深入剖析其关键技术细节与设计动因。2Pangu Ultra MoE模型架构和训练方法Pangu Ultra MoE的设计围绕充分释放Ascend NPU平台的计算潜力展开，在结构的选择上采用自主开发的系统级模拟器进行搜索，得到兼顾计算效率、存储约束与通信开销的模型。本文将系统介绍Pangu Ultra MoE的核心架构特性、范数稳定策略、负载均衡优化机制与多Token推理加速方法，展示其如何在硬件资源与模型性能之间取得高效折中。 3 2.1基础架构与模型效果在针对Ascend NPU平台的大模型系统设计中，我们结合计算、通信与内存等多方面因素，构建了完整的系统级模拟器，并基于约一万个不同的MoE架构组合，系统性地进行了架构搜索。最终得到一个约718B参数量的结构，它有61层，隐层大小为7680，每一层的注意力模块有128个头，每层MoE结构包含1个共享专家与256个路由专家，每个token激活8个专家，每个路由专家FFN中间维度均为2048。具体的搜索细节可以参考文档[15]。在Ascend NPU上的亲和性优化特性：结合Ascend平台的架构特性与模拟结果，我们对最终选中的模型结构进行如下分析：•隐藏维度贴合硬件：设置7680维隐藏层，精准匹配DaVinci芯片的16×16 MatMul单元，充分发挥Cube核心的计算潜力。•层数亲和流水线并行：设置61层Transformer结构，并预留额外MTP层空间，保障计算负载均衡的PP/VPP流水线调度，减少pipeline气泡，提升整体并行效率。•专家规模符合幂次规律：路由专家数量设为28= 256，在TP×EP并行下提升通信效率，有效加速分布式训练。Pangu Ultra MoE的架构和训练优化特性：在模型架构设计与训练流程中，我们亦引入了多项关键优化：•超大规模和超高稀疏比：采用256个路由专家，每个token激活8个专家，模型总参数量718B，激活参数量为39B。•MLA注意力机制：引入MLA（Multi-head Latent Attention），有效压缩KV Cache空间，缓解推理阶段的内存带宽瓶颈，优于传统GQA方案。•MTP多头扩展：采用单头MTP进行训练，后续复用MTP参数扩展至多头结构，实现多Token投机推理，加速整体推理过程。•Dropless训练：采用Dropless训练可以避免Drop&Pad训推不一致问题，并且提升训练的数据效率。•RL训练：采用迭代难例挖掘与多能力项均衡的奖励函数，并参考GRPO算法，提升了模型的训练效率与最终推理性能。Pangu Ultra MoE的预训练阶段在6k到10k张NPU上进行，全流程采用dropless训练模式。预训练阶段进行了长序列扩展，最终模型具备128k长序列能力。在后训练阶段，Pangu Ultra MoE移除了负载均衡辅助损失，保留专家间已有的特化能力，从而进一步提升模型对目标数据的学习效率。最终模型在多个权威开源评测集上展现出稳健性能，如表1所示，整体效果具备一定优势。 All-to-All4 表1: Pangu Ultra MoE与其他代表性MoE指令模型在多种评估通用语言理解与推理能力的基准任务上的比较。每行中加粗的数值表示该项最佳结果，星号（∗）表示由我们自行测试所得结果。BenchmarkQwen2.5MiniMax DeepSeek DeepSeekPangu Ultra MoEPlusText-01V3-0324R1ArchitectureMoEMoEMoEMoEMoE# Activated Params-46B37B37B39B# Total Params-456B671B671B718BGeneralC-Eval--87.9∗91.890.8CLUEWSC--94.3∗92.894.8C-SimpleQA-67.472.4∗63.770.3IF-Eval86.389.185.9∗83.384.9MMLU-88.587.4∗90.891.5MMLU-Pro72.575.781.284.083.5ReasoningAIME2024--59.479.881.3AIME2025--39.8∗70.070.0GPQA-Diamond-54.468.471.575.3LiveCodeBench51.4-49.265.964.3MBPP+-71.777.3∗81.2∗81.2MATH500--94.097.397.42.2范数稳定的模型架构在大规模模型的训练过程中，模型的稳定性和性能优化显得尤为关键。随着模型规模的增加，训练过程普遍会出现梯度范数不稳定的问题，表现为频繁的梯度范数突刺现象，这通常是由于模型结构复杂、网络深度增加以及参数初始化不当等原因引起的。这显著影响了模型的收敛速度和最终性能。为了提高模型的训练稳定性，归一化和参数初始化方法起着至关重要的作用。归一化能够有效调节特征或激活的尺度，确保梯度在网络中更加平稳地传播，避免梯度过大或过小导致的优化困难。良好的参数初始化则能使网络参数分布更合理，减少网络初期的不稳定波动，加快模型收敛速度，并提升最终性能。Pangu Ultra MoE延续了Pangu Ultra [19]稠密模型的设计理念，继续应用了Depth-Scaled Sandwich-Norm（DSSN）和TinyInit方法，以更有效地稳定梯度并提高训练过程的稳健性。经过实践验证，获得了与稠密模型一致的结论，即此设计能够显著增强模型的稳定性，并加快收敛速度。Depth-Scaled Sandwich-Norm（DSSN）：传统的Pre-LN结构容易因为子层输出规模波动而导致训练不稳定。为解决这一问题，DSSN在每个子层输出后加入额外的层归一化，并引入深度缩放的初始化方式。具体地，通过将层归一化的可训练γ参数初始化为与网络深度的平方根成反比的数值，从而稳定网络各层的输出尺度。这种结构能够有效抑制梯度爆炸或消失，降低梯度范数波动，提升模型的收敛性。DSSN的具体计算公式如下：5 其中，L为模型的层数，cattn和cmlp分别为注意力层与前馈网络（FFN）层初始输出的标准差。在Pangu Ultra MoE中，设定γattn为0.036，γmlp为0.019。TinyInit方法：模型初始化对训练稳定性与性能至关重要。现有研究表明初始化尺度影响模型在推理与记忆任务上的表现。Transformer模型通常采用较小的初始化尺度，而TinyInit方法提出了一种同时考虑模型深度与宽度的初始化方案，即采用标准差为√12

点击免费查看完整报告

Pangu Ultra MoE 模型架构与训练方法

你可能感兴趣

信息技术行业动态点评：DeepSeek发布第二代MoE架构模型，API调用成本降低

MOE架构性价比凸显维持看好国产模型及应用突破东吴传媒张良卫团队20240510

【风口研报·洞察】阶跃星辰发布万亿参数MoE模型，分析师指出模型规模提升到万亿对算力、数据和算法都提出了新要求，文本语料与多模态语料等上游数据价值有望重估;一季报季前后主题赛道投资的节奏如何演绎

东北通信英伟达发布新一代MoE架构大模型Nemotron4全球AI大模

计算机行业跟踪报告：谷歌再更新Gemini大模型，立足MoE架构性能更加卓越

东北通信英伟达发布新一代MoE架构大模型Nemotron4全球AI

AI产业深度：混合专家(MoE)大语言模型持续进化的核心架构基石

人工智能行业数据集构建及模型训练方法实践

国君电子|Blackwell Ultra架构更新,CPO赋能下一代AI计算

AI+专题系列点评（十七）：DeepSeek发布第二代MoE模型，降本增效有望加速AI应用普及