Retour au feed
arXiv cs.AI·

Hunt Instead of Wait: Evaluating Deep Data Research on Large Language Models

Signal
72
Hype
28
En 3 lignesNouvel benchmark DDR-Bench évalue l'intelligence investigatrice des LLM : capacité autonome à explorer des bases de données et extraire insights sans requête explicite. Les modèles frontière montrent une agentivité émergente mais peinent sur l'exploration long-horizon. L'étude distingue intelligence investigatrice (fixer ses propres buts) vs exécutionnelle (compléter des tâches assignées).
Lire la source
Ton avis ?
Agents IABenchmarksRaisonnement

Résumé généré par Claude — vérifié par l'humain