Retour au feed
arXiv cs.LG·

LongDS-Bench: On the Failure of Long-Horizon Agentic Data Analysis

Signal
82
Hype
15
En 3 lignesLongDS-Bench évalue la capacité des agents IA à maintenir un contexte analytique sur des horizons longs. Le benchmark contient 68 tâches d'analyse de données multi-tours (2 225 tours) basées sur des notebooks Kaggle réels. Les meilleurs modèles atteignent seulement 48,45% de précision, avec une chute de 47 points entre les tours précoces et tardifs. Les erreurs long-horizon représentent 52-69% des échecs.
Lire la source
Ton avis ?
Agents IABenchmarksÉvaluationsRaisonnement

Résumé généré par Claude — vérifié par l'humain