DataClawBench: An Agent Benchmark for Exploratory Real-World Financial Data Analysis
Signal
78
Hype
15
En 3 lignesDataClawBench est un benchmark pour agents d'analyse de données exploratoire en finance réelle, contenant 2,06 millions d'enregistrements bruts et 492 tâches multi-domaines. L'évaluation de 8 LLMs avancés montre que l'exploration accrue ne garantit pas le progrès ou les réponses correctes.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain