arXiv cs.AI·19 mai 2026

DataClawBench: An Agent Benchmark for Exploratory Real-World Financial Data Analysis

Signal

Hype

En 3 lignesDataClawBench est un benchmark pour agents d'analyse de données exploratoire en finance réelle, contenant 2,06 millions d'enregistrements bruts et 492 tâches multi-domaines. L'évaluation de 8 LLMs avancés montre que l'exploration accrue ne garantit pas le progrès ou les réponses correctes.

Lire la source

Ton avis ?

Agents IA Benchmarks Raisonnement Évaluations

Résumé généré par Claude — vérifié par l'humain

DataClawBench: An Agent Benchmark for Exploratory Real-World Financial Data Analysis

Autres angles sur ce sujet