Dynamic KV Cache Quantization and Load-on-demand mmproj/MTP: my llama.cpp wishlist
Signal
65
Hype
25
En 3 lignesDéveloppeur propose une optimisation pour llama.cpp : quantification dynamique du KV cache et chargement à la demande du mmproj. Implémentation PoC avec endpoint HTTP /requantize_kvcache permettant de basculer entre configurations (kvcache quantisé/f16, mmproj on/off) sans recharger le modèle. Testé sur RTX 5090 avec Qwen3.5-27B Q6_K.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain