Running Gemma4 31b-it on vLLM 0.21.0 A100s (bad quality or what am I doing wrong)
Signal
35
Hype
15
En 3 lignesUtilisateur rapporte une dégradation de qualité en exécutant Gemma 4 31B-it localement sur deux A100s avec vLLM 0.21.0 comparé à l'API Google. Même modèle, mêmes paramètres (tensor-parallel-size 2, max-model-len 65536, structured output), mais sorties JSON invalides en local versus parfaites via l'API.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain