arXiv cs.AI·19 mai 2026

LongMINT: Evaluating Memory under Multi-Target Interference in Long-Horizon Agent Systems

Signal

Hype

En 3 lignesLongMINT est un benchmark évaluant la capacité des agents à gérer la mémoire dans des contextes longs (jusqu'à 1,8M tokens) avec interférences multiples. 15.6k paires QA sur 4 domaines (suivi d'état, dialogue, révisions Wikipedia, commits GitHub). 7 systèmes testés (LLMs, RAG, agents) obtiennent 27,9% de précision moyenne, limités par la récupération et la construction mémoire.

Lire la source

Ton avis ?

Agents IA Benchmarks RAG Raisonnement

Résumé généré par Claude — vérifié par l'humain

LongMINT: Evaluating Memory under Multi-Target Interference in Long-Horizon Agent Systems

Autres angles sur ce sujet