Strix Halo users, a rejected PR can give you up to 30% faster PP for MOEs.
Signal
72
Hype
25
En 3 lignesUn PR rejeté pour llama.cpp optimise le traitement par paquet (PP) des modèles MOE de 30% sur Qwen 3.5 MoE 35B. L'amélioration diminue avec l'augmentation du contexte. Le code peut être appliqué manuellement à la version courante.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain