Retour au feed
Reddit r/LocalLLaMA·

"inference falls back to dense attention" for MiniMax M3 - does it mean 428B weights used at each step?

Signal
35
Hype
25
En 3 lignesMiniMax M3 sur Hugging Face utilise l'attention dense par défaut car l'attention sparse n'est pas encore supportée. Cela implique potentiellement l'utilisation de tous les poids (428B) à chaque étape, avec un impact de performance significatif.
Lire la source
Ton avis ?
MistralOpen source

Résumé généré par Claude — vérifié par l'humain