Retour au feed
arXiv cs.LG·

ResearchClawBench: A Benchmark for End-to-End Autonomous Scientific Research

Signal
82
Hype
15
En 3 lignesResearchClawBench évalue la capacité des agents IA à conduire des recherches scientifiques autonomes sur 40 tâches couvrant 10 domaines. Claude Code atteint 21.5/100, Claude-Opus 20.7/100. Les défaillances concentrent sur les protocoles expérimentaux, l'appariement des preuves et les lacunes conceptuelles.
Lire la source
Ton avis ?
BenchmarksAgents IAClaudePapers

Résumé généré par Claude — vérifié par l'humain