Retour au feed
Reddit r/LocalLLaMA·

mudler/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled-APEX-MTP-GGUF just released !

Signal
75
Hype
25
En 3 lignesMudler publie des quantifications APEX GGUF du modèle Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled avec tête MTP (multi-token prediction) intégrée. Les fichiers activent le décodage spéculatif auto-contenu via llama.cpp sans modèle brouillon séparé. Taille +2,5% vs version non-MTP, tête MTP quantifiée Q8_0 pour précision de draft élevée.
Lire la source
Ton avis ?
QwenGénération de codeOpen sourceOutilsInfrastructure

Résumé généré par Claude — vérifié par l'humain