arXiv cs.LG·1 juin 2026

LongDS-Bench: On the Failure of Long-Horizon Agentic Data Analysis

Signal

Hype

En 3 lignesLongDS-Bench évalue la capacité des agents IA à maintenir un contexte analytique sur des horizons longs. Le benchmark contient 68 tâches d'analyse de données multi-tours (2 225 tours) basées sur des notebooks Kaggle réels. Les meilleurs modèles atteignent seulement 48,45% de précision, avec une chute de 47 points entre les tours précoces et tardifs. Les erreurs long-horizon représentent 52-69% des échecs.

Lire la source

Ton avis ?

Agents IA Benchmarks Évaluations Raisonnement

Résumé généré par Claude — vérifié par l'humain

LongDS-Bench: On the Failure of Long-Horizon Agentic Data Analysis

Autres angles sur ce sujet