Reddit r/MachineLearning·3 juin 2026

MiniMax dropped a new attention architecture. [N]

Signal

Hype

En 3 lignesMiniMax introduit une nouvelle architecture d'attention (MSA) supportant nativement 1M tokens sans complexité quadratique. Approche « KV outer gather Q » offrant 4× plus rapide que Flash-Sparse-Attention, réduction compute à 1/20e, 9× speedup prefilling, 15× decoding. Premier modèle open-weight combinant coding frontier, 1M contexte et multimodalité native.

Lire la source

Ton avis ?

Raisonnement Génération de code Vision Agents IA Infrastructure

Résumé généré par Claude — vérifié par l'humain

MiniMax dropped a new attention architecture. [N]

Autres angles sur ce sujet