ThriftAttention: Selective Mixed Precision for Long-Context FP4 Attention
Signal
78
Hype
15
En 3 lignesThriftAttention combine précision mixte (FP16/FP4) pour l'attention long-contexte sur GPU Blackwell. En sélectionnant 5% des blocs query-key critiques en FP16 et le reste en FP4, la méthode récupère 89,1% de la performance FP16 tout en maintenant l'efficacité FP4. Code disponible.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain