Reddit r/LocalLLaMA·20 mai 2026

Move to backend sampling for MTP draft path by gaugarg-nv · Pull Request #23287 · ggml-org/llama.cpp

Signal

Hype

En 3 lignesPull request #23287 sur llama.cpp propose de déplacer l'échantillonnage MTP (Multi-Token Prediction) vers le backend pour améliorer les performances. Modification technique d'optimisation sans détails de benchmark fournis.

Lire la source

Ton avis ?

Open source Génération de code Infrastructure

Résumé généré par Claude — vérifié par l'humain

Move to backend sampling for MTP draft path by gaugarg-nv · Pull Request #23287 · ggml-org/llama.cpp

Autres angles sur ce sujet