arXiv cs.CL·19 May 2026

CoCoReviewBench: A Completeness- and Correctness-Oriented Benchmark for AI Reviewers

Signal

Hype

In three linesCoCoReviewBench is a 3,900-paper benchmark (ICLR, NeurIPS) to evaluate AI reviewer systems. It addresses metric bias by using reviewer-author-meta-review discussions as expert annotations. Results show AI reviewers suffer from hallucinations and reasoning models are more effective reviewers.

Read source

Your take?

Benchmarks Reasoning Evals Papers

Summary generated by Claude — human-verified

CoCoReviewBench: A Completeness- and Correctness-Oriented Benchmark for AI Reviewers

Other angles on this story