Retour au feed
Reddit r/LocalLLaMA·

ThriftAttention: Selective Mixed Precision for Long-Context FP4 Attention

Signal
65
Hype
25
En 3 lignesThriftAttention propose une technique de précision mixte sélective pour optimiser l'attention FP4 sur contextes longs. La méthode réduit la consommation mémoire et accélère l'inférence en appliquant différentes précisions selon les zones d'attention critiques.
Lire la source
Ton avis ?
LlamaFine-tuningInfrastructure

Résumé généré par Claude — vérifié par l'humain