Retour au feed
Reddit r/LocalLLaMA·

Running Gemma4 31b-it on vLLM 0.21.0 A100s (bad quality or what am I doing wrong)

Signal
35
Hype
15
En 3 lignesUtilisateur rapporte une dégradation de qualité en exécutant Gemma 4 31B-it localement sur deux A100s avec vLLM 0.21.0 comparé à l'API Google. Même modèle, mêmes paramètres (tensor-parallel-size 2, max-model-len 65536, structured output), mais sorties JSON invalides en local versus parfaites via l'API.
Lire la source
Ton avis ?
GeminiOpen sourceInfrastructure

Résumé généré par Claude — vérifié par l'humain