Reddit r/LocalLLaMA·21 mai 2026

Latest b9274 Addresses MTP VRAM leak

Signal

Hype

En 3 lignesLe commit b9274 corrige une fuite VRAM dans les modèles MTP (Multi-Token Prediction). La fonction destroy() ne libérait pas les ressources du décodeur spéculatif, du contexte draft et du modèle draft, causant une accumulation mémoire à chaque cycle sleep/resume. Le fix réinitialise explicitement ces composants avant llama_init.

Lire la source

Ton avis ?

Llama Génération de code Infrastructure

Résumé généré par Claude — vérifié par l'humain

Latest b9274 Addresses MTP VRAM leak

Autres angles sur ce sujet