行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

MinimaxM3注意力侧的方向转弯带来的长上下文推理成本大幅优化

2026-05-27 未知机构 Gnomeshgh文J

新架构GQA的实现方式
- 采用两阶段检索机制：先用Index Branch进行粗检索，再用Sparse Branch对筛选出的block执行真实注意力计算。
- 类比阅读过程，避免逐字重读整本书，提升效率。
GQA的效果与提升方向
- M3在长上下文处理（1M上下文）中，prefill速度比M2快9.7倍，显著优化推理成本。
- 后续迭代重点在于扩展长上下文能力与降低推理成本，两者均有较大提升空间。
- V4应用的DSA/CSA与GQA类似，均为序列稀疏选择方法，是兼顾精度与成本的核心趋势。
Minimax注意力机制的演进
- 经历两轮重大变革：从M1的线性注意力（Lightning）→ M2的全注意力 → 现阶段的序列稀疏选择（GQA）。
- 新机制与DeepSeek的DSA/CSA技术路径交汇，验证了稀疏注意力在降本增效上的有效性。

今晚Minimax工程总在X上透露minimax稀疏注意力架构图，或为下一代模型M3的全新注意力机制，我们分析判断如下： 1、新架构GQA如何实现：先用Index Branch做粗检索，再用Sparse Branch对选中的block做真实attention 。可类比为，看书时候不是把整本书每一页都重读 Minimax M3：注意力侧的方向转弯带来的长上下文+推理成本大幅优化今晚Minimax工程总在X上透露minimax稀疏注意力架构图，或为下一代模型M3的全新注意力机制，我们分析判断如下： 1、新架构GQA如何实现：先用Index Branch做粗检索，再用Sparse Branch对选中的block做真实attention 。我们认为，V4所应用的DSA / CSA不谋而合，均为序列稀疏选择方法，是保全推理精度+下降成本的一核心技术趋势。 2、GQA实现效果与&提升方向：#我们判断M3后续迭代主要在长上下文扩展+ 降低推理成本上，且二者均有较大提升。官方图示可看到，1 M上下文情况，M3 VS M2，prefill比之前快9.7倍， 3、Minimax的注意力机制两轮变迁，现在与deepseek交汇：Minimax从M1的线性注意力（Lightning），到M2的全注意力，再到序列稀疏选择，经历两轮注意力机制的较大变化。

点击免费查看完整报告

MinimaxM3注意力侧的方向转弯带来的长上下文推理成本大幅优化

你可能感兴趣

NSA架构在通用基准测试中达到了全注意力的性能长上下文评估中的建模能力更胜一筹

Gemini 2.5：推动前沿，具备先进推理、多模态、长上下文及下一代智能体能力

Gemini 2.5：通过高级推理、多模态、长上下文和下一代代理能力推动前沿

电子行业周度点评报告：谷歌推出Gemini 3 Pro，推理、多模态、长上下文能力提升

Gemini 2.5：通过先进推理、多模态、长上下文和下一代代理能力推动前沿

大语言模型中有效长上下文建模的长短对齐方法

广发电子DEEPSEEK推出专为优化长文本训练与推理设计的注意力机制NSA

计算机行业投资策略周报：长上下文：通往AGI的关键模型能力

西部计算机DeepSeek发布创新注意力机制NSA推理速度大幅提高

通信周跟踪：OpenAI新模型或大幅提升推理能力，萝卜快报带来对智驾能力的新关注