Reddit r/LocalLLaMA·12 juin 2026

MiniMax Sparse Attention (MSA)

Signal

Hype

En 3 lignesMiniMax introduit MSA (Sparse Attention), une attention éparse par blocs construite sur GQA pour traiter des contextes ultra-longs (jusqu'à 1M tokens). Sur un modèle 109B multimodal, MSA réduit le calcul d'attention par token de 28.4x à 1M contexte, avec speedups de 14.2x en prefill et 7.6x en decoding sur H800. Code et modèle MiniMax-M3 disponibles.

Lire la source

Ton avis ?

Raisonnement Infrastructure Open source Benchmarks

Résumé généré par Claude — vérifié par l'humain

MiniMax Sparse Attention (MSA)

Autres angles sur ce sujet