Using Gemma 4 E4B with the LiteRT engine - ~2.4x speedup over Q4 GGUF in text generation, image processing roughly the same
Signal
72
Hype
28
En 3 lignesGemma 4 E4B en format LiteRT avec moteur Google atteint 157.2 tok/s en génération de texte, 2.4× plus rapide que Q4 GGUF (66.3 tok/s) grâce à la prédiction multi-tokens (MTP). Captionnage d'images : gain marginal de 1.1× car le goulot est l'encodeur vision. Testé sur RTX 4060 Ti 16GB.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain