Retour au feed
arXiv cs.AI·

LongMINT: Evaluating Memory under Multi-Target Interference in Long-Horizon Agent Systems

Signal
78
Hype
15
En 3 lignesLongMINT est un benchmark évaluant la capacité des agents à gérer la mémoire dans des contextes longs (jusqu'à 1,8M tokens) avec interférences multiples. 15.6k paires QA sur 4 domaines (suivi d'état, dialogue, révisions Wikipedia, commits GitHub). 7 systèmes testés (LLMs, RAG, agents) obtiennent 27,9% de précision moyenne, limités par la récupération et la construction mémoire.
Lire la source
Ton avis ?
Agents IABenchmarksRAGRaisonnement

Résumé généré par Claude — vérifié par l'humain