BeeLlama v0.2.0 – major DFlash update. Single RTX 3090: Qwen 3.6 27B up to 164 tps (4.40x), Gemma 4 31B up to 177.8 tps (4.93x). Prompt processing speed near baseline.
BeeLlama v0.2.0 améliore significativement les performances avec DFlash. Sur RTX 3090 : Qwen 3.6 27B atteint 164 tps (4.40x speedup), Gemma 4 31B 177.8 tps (4.93x). Support complet Gemma 4 31B, réduction overhead DFlash, meilleure gestion prefill et validation draft/target.