arXiv cs.CL·21 mai 2026

On the limits and opportunities of AI reviewers: Reviewing the reviews of Nature-family papers with 45 expert scientists

Signal

Hype

En 3 lignesÉtude d'experts (45 scientifiques, 469 heures) évaluant 2,960 critiques de 82 articles Nature. GPT-5.2 surpasse le meilleur reviewer humain (60,0% vs 48,2%), mais les IA montrent 16 faiblesses récurrentes (connaissance limitée du sous-domaine, gestion faible du contexte long). Les IA complètent plutôt qu'elles ne remplacent les humains.

Lire la source

Ton avis ?

GPT Gemini Claude Évaluations Papers

Résumé généré par Claude — vérifié par l'humain

On the limits and opportunities of AI reviewers: Reviewing the reviews of Nature-family papers with 45 expert scientists

Autres angles sur ce sujet