Parallel Context Compaction for Long-Horizon LLM Agent Serving
Article proposant une technique de compaction parallèle du contexte pour les agents LLM long-horizon. La méthode résout les problèmes de latence et d'imprévisibilité des résumés séquentiels en permettant un contrôle fin du volume de résumé. Évaluée sur HotpotQA et LoCoMo avec modèles 8B-120B (dense et MoE).