Retour au feed
Reddit r/LocalLLaMA·

llama: use f16 mask for FA to save VRAM by am17an · Pull Request #23764 · ggml-org/llama.cpp

Signal
65
Hype
15
En 3 lignesPull request llama.cpp #23764 : utilisation de masques f16 dans Flash Attention pour réduire la consommation VRAM. Optimisation permettant de charger des modèles plus volumineux sur GPU.
Lire la source
Ton avis ?
LlamaOpen sourceInfrastructure

Résumé généré par Claude — vérifié par l'humain