Retour au feed
arXiv cs.CL·

On the limits and opportunities of AI reviewers: Reviewing the reviews of Nature-family papers with 45 expert scientists

Signal
78
Hype
25
En 3 lignesÉtude d'experts (45 scientifiques, 469 heures) évaluant 2,960 critiques de 82 articles Nature. GPT-5.2 surpasse le meilleur reviewer humain (60,0% vs 48,2%), mais les IA montrent 16 faiblesses récurrentes (connaissance limitée du sous-domaine, gestion faible du contexte long). Les IA complètent plutôt qu'elles ne remplacent les humains.
Lire la source
Ton avis ?
GPTGeminiClaudeÉvaluationsPapers

Résumé généré par Claude — vérifié par l'humain