您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [未知机构]:MinimaxM3注意力侧的方向转弯带来的长上下文推理成本大幅优化 - 发现报告

MinimaxM3注意力侧的方向转弯带来的长上下文推理成本大幅优化

2026-05-27 未知机构 Gnomeshgh文J
报告封面

今晚Minimax工程总在X上透露minimax稀疏注意力架构图,或为下一代模型M3的全新注意力机制,我们分析判断如下: 1、新架构GQA如何实现:先用Index Branch做粗检索,再用Sparse Branch对选中的block做真实attention 。 可类比为,看书时候不是把整本书每一页都重读 Minimax M3:注意力侧的方向转弯带来的长上下文+推理成本大幅优化 今晚Minimax工程总在X上透露minimax稀疏注意力架构图,或为下一代模型M3的全新注意力机制,我们分析判断如下: 1、新架构GQA如何实现:先用Index Branch做粗检索,再用Sparse Branch对选中的block做真实attention 。 我们认为,V4所应用的DSA / CSA不谋而合,均为序列稀疏选择方法,是保全推理精度+下降成本的一核心技术趋势。 2、GQA实现效果与&提升方向:#我们判断M3后续迭代主要在长上下文扩展+ 降低推理成本上,且二者均有较大提升。 官方图示可看到,1 M上下文情况,M3 VS M2,prefill比之前快9.7倍, 3、Minimax的注意力机制两轮变迁,现在与deepseek交汇:Minimax从M1的线性注意力(Lightning),到M2的全注意力,再到序列稀疏选择,经历两轮注意力机制的较大变化。