MiniMax Sparse Attention (MSA)
Signal
82
Hype
25
En 3 lignesMiniMax introduit MSA (Sparse Attention), une attention éparse par blocs construite sur GQA pour traiter des contextes ultra-longs (jusqu'à 1M tokens). Sur un modèle 109B multimodal, MSA réduit le calcul d'attention par token de 28.4x à 1M contexte, avec speedups de 14.2x en prefill et 7.6x en decoding sur H800. Code et modèle MiniMax-M3 disponibles.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain