Reddit r/LocalLLaMA·1 juin 2026

llama: limit max outputs of `llama_context` by am17an · Pull Request #23861 · ggml-org/llama.cpp

Signal

Hype

En 3 lignesPR sur llama.cpp limitant l'allocation mémoire des logits dans llama_context. Avec -ub 2048 et MTP, économise 1.2GB VRAM. Propose une API pour réserver l'espace logits uniquement pour n_seqs nécessaires, par défaut tous les tokens mais configurable à 1 en server-context.

Lire la source

Ton avis ?

Llama Open source Infrastructure

Résumé généré par Claude — vérifié par l'humain

llama: limit max outputs of `llama_context` by am17an · Pull Request #23861 · ggml-org/llama.cpp

Autres angles sur ce sujet