Probing the Prompt KV Cache: Where It Becomes Dispensable
Signal
78
Hype
15
En 3 lignesÉtude sur la redondance du cache KV des prompts lors du décodage. Les chercheurs montrent que les couches supérieures du cache prompt peuvent être remplacées par un scaffold de template de chat sans perte d'accuracy significative, révélant que la redondance est structurelle plutôt que sémantique. Résultats validés sur Qwen3, Gemma 3 et Llama 3.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain