Reddit r/LocalLLaMA·2 juin 2026

Using Gemma 4 E4B with the LiteRT engine - ~2.4x speedup over Q4 GGUF in text generation, image processing roughly the same

Signal

Hype

En 3 lignesGemma 4 E4B en format LiteRT avec moteur Google atteint 157.2 tok/s en génération de texte, 2.4× plus rapide que Q4 GGUF (66.3 tok/s) grâce à la prédiction multi-tokens (MTP). Captionnage d'images : gain marginal de 1.1× car le goulot est l'encodeur vision. Testé sur RTX 4060 Ti 16GB.

Lire la source

Ton avis ?

Gemini Génération de code Vision Benchmarks Outils

Résumé généré par Claude — vérifié par l'humain

Using Gemma 4 E4B with the LiteRT engine - ~2.4x speedup over Q4 GGUF in text generation, image processing roughly the same

Autres angles sur ce sujet