Retour au feed
Reddit r/MachineLearning·

MiniMax dropped a new attention architecture. [N]

Signal
72
Hype
35
En 3 lignesMiniMax introduit une nouvelle architecture d'attention (MSA) supportant nativement 1M tokens sans complexité quadratique. Approche « KV outer gather Q » offrant 4× plus rapide que Flash-Sparse-Attention, réduction compute à 1/20e, 9× speedup prefilling, 15× decoding. Premier modèle open-weight combinant coding frontier, 1M contexte et multimodalité native.
Lire la source
Ton avis ?
RaisonnementGénération de codeVisionAgents IAInfrastructure

Résumé généré par Claude — vérifié par l'humain