Retour au feed
arXiv cs.AI·

DataClawBench: An Agent Benchmark for Exploratory Real-World Financial Data Analysis

Signal
78
Hype
15
En 3 lignesDataClawBench est un benchmark pour agents d'analyse de données exploratoire en finance réelle, contenant 2,06 millions d'enregistrements bruts et 492 tâches multi-domaines. L'évaluation de 8 LLMs avancés montre que l'exploration accrue ne garantit pas le progrès ou les réponses correctes.
Lire la source
Ton avis ?
Agents IABenchmarksRaisonnementÉvaluations

Résumé généré par Claude — vérifié par l'humain