arXiv cs.CL·19 May 2026

LongMINT: Evaluating Memory under Multi-Target Interference in Long-Horizon Agent Systems

Signal

Hype

In three linesLongMINT is a benchmark evaluating agents' memory management in long contexts (up to 1.8M tokens) with multi-target interference. 15.6k QA pairs across 4 domains (state tracking, dialogue, Wikipedia revisions, GitHub commits). 7 systems tested (long-context LLMs, RAG, agent frameworks) achieve 27.9% average accuracy, bottlenecked by retrieval and memory construction.

Read source

Your take?

AI Agents Benchmarks RAG Reasoning

Summary generated by Claude — human-verified

LongMINT: Evaluating Memory under Multi-Target Interference in Long-Horizon Agent Systems

Other angles on this story