qwen35: use post-norm hidden state for MTP by am17an · Pull Request #24025 · ggml-org/llama.cpp
Signal
65
Hype
15
En 3 lignesPull request sur llama.cpp optimisant le MTP (Multi-Token Prediction) pour Qwen 3.5 en utilisant l'état caché post-norm. Amélioration de performance pour la prédiction multi-tokens.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain