arXiv cs.CL·19 mai 2026

CoCoReviewBench: A Completeness- and Correctness-Oriented Benchmark for AI Reviewers

Signal

Hype

En 3 lignesCoCoReviewBench est un benchmark de 3,900 articles (ICLR, NeurIPS) pour évaluer les systèmes d'IA chargés de la relecture académique. Il corrige les biais des métriques existantes en utilisant des discussions reviewer-auteur-meta-review comme annotations expertes. Les résultats montrent que les reviewers IA souffrent d'hallucinations et que les modèles de reasoning sont plus efficaces.

Lire la source

Ton avis ?

Benchmarks Raisonnement Évaluations Papers

Résumé généré par Claude — vérifié par l'humain

CoCoReviewBench: A Completeness- and Correctness-Oriented Benchmark for AI Reviewers

Autres angles sur ce sujet