Retour au feed
Reddit r/LocalLLaMA·

Dynamic KV Cache Quantization and Load-on-demand mmproj/MTP: my llama.cpp wishlist

Signal
65
Hype
25
En 3 lignesDéveloppeur propose une optimisation pour llama.cpp : quantification dynamique du KV cache et chargement à la demande du mmproj. Implémentation PoC avec endpoint HTTP /requantize_kvcache permettant de basculer entre configurations (kvcache quantisé/f16, mmproj on/off) sans recharger le modèle. Testé sur RTX 5090 avec Qwen3.5-27B Q6_K.
Lire la source
Ton avis ?
LlamaInfrastructureOpen source

Résumé généré par Claude — vérifié par l'humain