IntentKV: Cross-Turn Intent-Aware KV Cache Pruning for Agent Inference
Signal
82
Hype
15
En 3 lignesIntentKV est une technique de pruning du cache KV pour agents LLM multi-tours. Elle maintient une mémoire d'intention cross-turn et utilise une règle memory-attention pour scorer les tokens historiques. Sur Qwen2.5-14B avec budget 8k, elle réduit les pics de tokens de 92.3k à 20.5k (−77.8%) et les lectures KV de 411M à 31M (−92.6%) sans perte d'exactitude significative.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain