Retour au feed
Reddit r/LocalLLaMA·

Latest b9274 Addresses MTP VRAM leak

Signal
72
Hype
15
En 3 lignesLe commit b9274 corrige une fuite VRAM dans les modèles MTP (Multi-Token Prediction). La fonction destroy() ne libérait pas les ressources du décodeur spéculatif, du contexte draft et du modèle draft, causant une accumulation mémoire à chaque cycle sleep/resume. Le fix réinitialise explicitement ces composants avant llama_init.
Lire la source
Ton avis ?
LlamaGénération de codeInfrastructure

Résumé généré par Claude — vérifié par l'humain