Reddit r/LocalLLaMA·24 mai 2026

gemma 4 e2b quality degrades after ~30-40 continuous inferences on 4gb vram?

Signal

Hype

En 3 lignesUtilisateur rapporte une dégradation de la qualité des sorties de Gemma 2B après 30-40 inférences continues sur GPU 4GB (RTX 1650). Les réponses deviennent plus courtes, les champs JSON manquent, parfois vides. Redémarrage du serveur llama résout le problème. Possible problème de cache KV ou fragmentation mémoire.

Lire la source

Ton avis ?

Open source Infrastructure

Résumé généré par Claude — vérifié par l'humain

gemma 4 e2b quality degrades after ~30-40 continuous inferences on 4gb vram?

Autres angles sur ce sujet