Retour au feed
Reddit r/LocalLLaMA·

BeeLlama v0.2.0 – major DFlash update. Single RTX 3090: Qwen 3.6 27B up to 164 tps (4.40x), Gemma 4 31B up to 177.8 tps (4.93x). Prompt processing speed near baseline.

Signal
82
Hype
25
En 3 lignesBeeLlama v0.2.0 améliore significativement les performances avec DFlash. Sur RTX 3090 : Qwen 3.6 27B atteint 164 tps (4.40x speedup), Gemma 4 31B 177.8 tps (4.93x). Support complet Gemma 4 31B, réduction overhead DFlash, meilleure gestion prefill et validation draft/target.
Lire la source
Ton avis ?
QwenOpen sourceGénération de codeBenchmarksInfrastructure

Résumé généré par Claude — vérifié par l'humain