Retour au feed
arXiv cs.CL·

CoCoReviewBench: A Completeness- and Correctness-Oriented Benchmark for AI Reviewers

Signal
78
Hype
15
En 3 lignesCoCoReviewBench est un benchmark de 3,900 articles (ICLR, NeurIPS) pour évaluer les systèmes d'IA chargés de la relecture académique. Il corrige les biais des métriques existantes en utilisant des discussions reviewer-auteur-meta-review comme annotations expertes. Les résultats montrent que les reviewers IA souffrent d'hallucinations et que les modèles de reasoning sont plus efficaces.
Lire la source
Ton avis ?
BenchmarksRaisonnementÉvaluationsPapers

Résumé généré par Claude — vérifié par l'humain