Retour au feed
Reddit r/LocalLLaMA·

Long-context performance at lower quants

Signal
35
Hype
15
En 3 lignesUtilisateur rapporte une dégradation drastique des performances de Qwen3.5 122B en quantification Q3_K_XL au-delà de 75-80k tokens de contexte : hallucinations, oublis, confusion. Demande si le problème vient de la quantification Q3 ou du modèle lui-même, et cherche des optimisations llama.cpp.
Lire la source
Ton avis ?
QwenOpen source

Résumé généré par Claude — vérifié par l'humain