CoCoReviewBench: A Completeness- and Correctness-Oriented Benchmark for AI Reviewers
Signal
78
Hype
15
En 3 lignesCoCoReviewBench est un benchmark de 3,900 articles (ICLR, NeurIPS) pour évaluer les systèmes d'IA chargés de la relecture académique. Il corrige les biais des métriques existantes en utilisant des discussions reviewer-auteur-meta-review comme annotations expertes. Les résultats montrent que les reviewers IA souffrent d'hallucinations et que les modèles de reasoning sont plus efficaces.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain