Retour au feed
Reddit r/LocalLLaMA·

Gemma 4 QAT + MTP: max 33% speed increase in token generation, any ideas?

Signal
35
Hype
15
En 3 lignesUtilisateur avec 2x RTX 3060 Ti teste Gemma 4 QAT avec modèle assistant MTP sur llama.cpp. Atteint 100 t/s (33% gain) avec 80%+ taux d'acceptation du draft, cherche optimisations pour dépasser ce seuil.
Lire la source
Ton avis ?
LlamaGénération de codeOpen sourceInfrastructure

Résumé généré par Claude — vérifié par l'humain