"inference falls back to dense attention" for MiniMax M3 - does it mean 428B weights used at each step?
MiniMax M3 sur Hugging Face utilise l'attention dense par défaut car l'attention sparse n'est pas encore supportée. Cela implique potentiellement l'utilisation de tous les poids (428B) à chaque étape, avec un impact de performance significatif.