Retour au feed
Reddit r/LocalLLaMA·

Qwen-27B-IQ4_KS for ik_llama.cpp, especially for NVIDIA with 16GB VRAM

Signal
72
Hype
25
En 3 lignesNouvelle quantization Qwen-27B-IQ4_KS optimisée pour GPU NVIDIA 16GB via ik_llama.cpp. Modèle de 14.1GB offrant performances comparables à IQ4_XS précédent, 1.5-1.75x plus rapide, fenêtre contexte 105k tokens. Tests: Needle In Haystack 100k réussi, perplexité 71.10.
Lire la source
Ton avis ?
QwenOpen sourceOutilsInfrastructure

Résumé généré par Claude — vérifié par l'humain