Retour au feed
Reddit r/MachineLearning·

High E2E latency on fine-tuned Gemma 4 26B despite low TTFT [R]

Signal
35
Hype
15
En 3 lignesUtilisateur rapporte une latence E2E élevée (3-5s) sur Gemma 4 26B fine-tuné malgré TTFT faible (100-300ms) sur H100 avec vLLM et quantization FP8. Cherche optimisations : speculative decoding (EAGLE/Medusa), draft models, ou investigation des goulots.
Lire la source
Ton avis ?
GeminiFine-tuningInfrastructureOutils

Résumé généré par Claude — vérifié par l'humain