Retour au feed
Reddit r/LocalLLaMA·

Experts first llama.cpp

Signal
65
Hype
25
En 3 lignesFork expérimental de llama.cpp optimisant les MoE pour GPU 12GB VRAM. L'auteur charge sélectivement les experts en VRAM plutôt que des couches complètes, atteignant 26 tk/s sur RTX 2060 (vs 19 tk/s standard) avec taux de hit de 62%. Cherche testeurs sur 3060/4060.
Lire la source
Ton avis ?
LlamaOpen sourceInfrastructureGénération de code

Résumé généré par Claude — vérifié par l'humain