Experts first llama.cpp
Signal
65
Hype
25
En 3 lignesFork expérimental de llama.cpp optimisant les MoE pour GPU 12GB VRAM. L'auteur charge sélectivement les experts en VRAM plutôt que des couches complètes, atteignant 26 tk/s sur RTX 2060 (vs 19 tk/s standard) avec taux de hit de 62%. Cherche testeurs sur 3060/4060.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain