arXiv cs.LG·10 juin 2026

IntentKV: Cross-Turn Intent-Aware KV Cache Pruning for Agent Inference

Signal

Hype

En 3 lignesIntentKV est une technique de pruning du cache KV pour agents LLM multi-tours. Elle maintient une mémoire d'intention cross-turn et utilise une règle memory-attention pour scorer les tokens historiques. Sur Qwen2.5-14B avec budget 8k, elle réduit les pics de tokens de 92.3k à 20.5k (−77.8%) et les lectures KV de 411M à 31M (−92.6%) sans perte d'exactitude significative.

Lire la source

Ton avis ?

Agents IA Raisonnement Infrastructure Benchmarks

Résumé généré par Claude — vérifié par l'humain

IntentKV: Cross-Turn Intent-Aware KV Cache Pruning for Agent Inference

Autres angles sur ce sujet