Reddit r/LocalLLaMA·4 juin 2026

Qwen3.6 27B collapse in performance for agentic coding

Signal

Hype

En 3 lignesUtilisateur rapporte une dégradation drastique des performances de Qwen 3.6 27B en quantization Q4_K_XL sur RX 7900 XTX avec llama.cpp : vitesse de traitement des prompts chute de 161 tokens/s (2048 tokens) à 20 tokens/s (12288 tokens). Configuration : ctx-size 90000, flash-attn activé, tous les layers en VRAM.

Lire la source

Ton avis ?

Qwen Génération de code Agents IA Infrastructure

Résumé généré par Claude — vérifié par l'humain

Qwen3.6 27B collapse in performance for agentic coding

Autres angles sur ce sujet