Retour au feed
arXiv cs.LG·

IntentKV: Cross-Turn Intent-Aware KV Cache Pruning for Agent Inference

Signal
82
Hype
15
En 3 lignesIntentKV est une technique de pruning du cache KV pour agents LLM multi-tours. Elle maintient une mémoire d'intention cross-turn et utilise une règle memory-attention pour scorer les tokens historiques. Sur Qwen2.5-14B avec budget 8k, elle réduit les pics de tokens de 92.3k à 20.5k (−77.8%) et les lectures KV de 411M à 31M (−92.6%) sans perte d'exactitude significative.
Lire la source
Ton avis ?
Agents IARaisonnementInfrastructureBenchmarks

Résumé généré par Claude — vérifié par l'humain