Reddit r/LocalLLaMA·23 mai 2026

Optimizing speed & quality on Qwen3.6 27b

Signal

Hype

En 3 lignesUtilisateur optimise l'inférence de Qwen 3.6 27B sur llama.cpp avec 40GB VRAM (RTX 2060 Super + 2x RTX 5060 Ti). Atteint 300-500 tok/s en traitement de prompt et 22-30 tok/s en génération à fenêtre de contexte 100k. Demande si configuration est optimale ou si améliorations possibles.

Lire la source

Ton avis ?

Qwen Génération de code Agents IA Infrastructure

Résumé généré par Claude — vérifié par l'humain

Optimizing speed & quality on Qwen3.6 27b

Autres angles sur ce sujet