今晚Minimax工程总在X上透露minimax稀疏注意力架构图,或为下一代模型M3的全新注意力机制,我们分析判断如下: 1、新架构GQA如何实现:先用Index Branch做粗检索,再用Sparse Branch对选中的block做真实attention 。 可类比为,看书时候不是把整本书每一页都重读 Minimax M3:注意力侧的方向转弯带来的长上下文+推理成本大幅优化 今晚Minimax工程总在X上透露minimax稀疏注意力架构图,或为下一代模型M3的全新注意力机制,我们分析判断如下: 1、新架构GQA如何实现:先用Index Branch做粗检索,再用Sparse Branch对选中的block做真实attention 。 我们认为,V4所应用的DSA / CSA不谋而合,均为序列稀疏选择方法,是保全推理精度+下降成本的一核心技术趋势。 2、GQA实现效果与&提升方向:#我们判断M3后续迭代主要在长上下文扩展+ 降低推理成本上,且二者均有较大提升。 官方图示可看到,1 M上下文情况,M3 VS M2,prefill比之前快9.7倍, 3、Minimax的注意力机制两轮变迁,现在与deepseek交汇:Minimax从M1的线性注意力(Lightning),到M2的全注意力,再到序列稀疏选择,经历两轮注意力机制的较大变化。