gemma 4 e2b quality degrades after ~30-40 continuous inferences on 4gb vram?
Signal
35
Hype
15
En 3 lignesUtilisateur rapporte une dégradation de la qualité des sorties de Gemma 2B après 30-40 inférences continues sur GPU 4GB (RTX 1650). Les réponses deviennent plus courtes, les champs JSON manquent, parfois vides. Redémarrage du serveur llama résout le problème. Possible problème de cache KV ou fragmentation mémoire.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain