High E2E latency on fine-tuned Gemma 4 26B despite low TTFT [R]
Signal
35
Hype
15
En 3 lignesUtilisateur rapporte une latence E2E élevée (3-5s) sur Gemma 4 26B fine-tuné malgré TTFT faible (100-300ms) sur H100 avec vLLM et quantization FP8. Cherche optimisations : speculative decoding (EAGLE/Medusa), draft models, ou investigation des goulots.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain