llama: use f16 mask for FA to save VRAM by am17an · Pull Request #23764 · ggml-org/llama.cpp
Signal
65
Hype
15
En 3 lignesPull request llama.cpp #23764 : utilisation de masques f16 dans Flash Attention pour réduire la consommation VRAM. Optimisation permettant de charger des modèles plus volumineux sur GPU.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain