arXiv cs.AI·19 mai 2026

Hunt Instead of Wait: Evaluating Deep Data Research on Large Language Models

Signal

Hype

En 3 lignesNouvel benchmark DDR-Bench évalue l'intelligence investigatrice des LLM : capacité autonome à explorer des bases de données et extraire insights sans requête explicite. Les modèles frontière montrent une agentivité émergente mais peinent sur l'exploration long-horizon. L'étude distingue intelligence investigatrice (fixer ses propres buts) vs exécutionnelle (compléter des tâches assignées).

Lire la source

Ton avis ?

Agents IA Benchmarks Raisonnement

Résumé généré par Claude — vérifié par l'humain

Hunt Instead of Wait: Evaluating Deep Data Research on Large Language Models

Autres angles sur ce sujet