ResearchClawBench: A Benchmark for End-to-End Autonomous Scientific Research
Signal
82
Hype
15
En 3 lignesResearchClawBench évalue la capacité des agents IA à conduire des recherches scientifiques autonomes sur 40 tâches couvrant 10 domaines. Claude Code atteint 21.5/100, Claude-Opus 20.7/100. Les défaillances concentrent sur les protocoles expérimentaux, l'appariement des preuves et les lacunes conceptuelles.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain