Reddit r/MachineLearning·21 mai 2026

High E2E latency on fine-tuned Gemma 4 26B despite low TTFT [R]

Signal

Hype

En 3 lignesUtilisateur rapporte une latence E2E élevée (3-5s) sur Gemma 4 26B fine-tuné malgré TTFT faible (100-300ms) sur H100 avec vLLM et quantization FP8. Cherche optimisations : speculative decoding (EAGLE/Medusa), draft models, ou investigation des goulots.

Lire la source

Ton avis ?

Gemini Fine-tuning Infrastructure Outils

Résumé généré par Claude — vérifié par l'humain

High E2E latency on fine-tuned Gemma 4 26B despite low TTFT [R]

Autres angles sur ce sujet