ThriftAttention: Selective Mixed Precision for Long-Context FP4 Attention
Signal
65
Hype
25
En 3 lignesThriftAttention propose une technique de précision mixte sélective pour optimiser l'attention FP4 sur contextes longs. La méthode réduit la consommation mémoire et accélère l'inférence en appliquant différentes précisions selon les zones d'attention critiques.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain