Reddit r/LocalLLaMA·4 juin 2026

Dynamic KV Cache Quantization and Load-on-demand mmproj/MTP: my llama.cpp wishlist

Signal

Hype

En 3 lignesDéveloppeur propose une optimisation pour llama.cpp : quantification dynamique du KV cache et chargement à la demande du mmproj. Implémentation PoC avec endpoint HTTP /requantize_kvcache permettant de basculer entre configurations (kvcache quantisé/f16, mmproj on/off) sans recharger le modèle. Testé sur RTX 5090 avec Qwen3.5-27B Q6_K.

Lire la source

Ton avis ?

Llama Infrastructure Open source

Résumé généré par Claude — vérifié par l'humain

Dynamic KV Cache Quantization and Load-on-demand mmproj/MTP: my llama.cpp wishlist

Autres angles sur ce sujet