arXiv cs.LG·9 juin 2026

ResearchClawBench: A Benchmark for End-to-End Autonomous Scientific Research

Signal

Hype

En 3 lignesResearchClawBench évalue la capacité des agents IA à conduire des recherches scientifiques autonomes sur 40 tâches couvrant 10 domaines. Claude Code atteint 21.5/100, Claude-Opus 20.7/100. Les défaillances concentrent sur les protocoles expérimentaux, l'appariement des preuves et les lacunes conceptuelles.

Lire la source

Ton avis ?

Benchmarks Agents IA Claude Papers

Résumé généré par Claude — vérifié par l'humain

ResearchClawBench: A Benchmark for End-to-End Autonomous Scientific Research

Autres angles sur ce sujet