AI Coding Agents Can Reproduce Social Science Findings
Signal
82
Hype
28
En 3 lignesSocSci-Repro-Bench, un benchmark de 221 tâches en sciences sociales, évalue la capacité des agents IA à reproduire des résultats publiés. Claude Code surpasse Codex, avec des taux de reproduction nettement supérieurs aux benchmarks existants. Les agents identifient aussi les questions de recherche et ne mémorisent pas principalement les résultats.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain