Long-context performance at lower quants
Signal
35
Hype
15
En 3 lignesUtilisateur rapporte une dégradation drastique des performances de Qwen3.5 122B en quantification Q3_K_XL au-delà de 75-80k tokens de contexte : hallucinations, oublis, confusion. Demande si le problème vient de la quantification Q3 ou du modèle lui-même, et cherche des optimisations llama.cpp.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain