Retour au feed
Reddit r/LocalLLaMA·

llama: limit max outputs of `llama_context` by am17an · Pull Request #23861 · ggml-org/llama.cpp

Signal
65
Hype
15
En 3 lignesPR sur llama.cpp limitant l'allocation mémoire des logits dans llama_context. Avec -ub 2048 et MTP, économise 1.2GB VRAM. Propose une API pour réserver l'espace logits uniquement pour n_seqs nécessaires, par défaut tous les tokens mais configurable à 1 en server-context.
Lire la source
Ton avis ?
LlamaOpen sourceInfrastructure

Résumé généré par Claude — vérifié par l'humain