arXiv cs.AI·29 mai 2026

Review Arcade: On the Human Alignment and Gameability of LLM Reviews

Signal

Hype

En 3 lignesÉtude empirique sur les revues générées par LLM pour articles scientifiques (données ACL Rolling Review 2025). Résultats : alignement limité entre avis LLM et humains, variation substantielle selon les prompts/modèles. Les auteurs peuvent « gamifier » les revues LLM via révisions itératives, augmentant les scores de 35% des articles testés.

Lire la source

Ton avis ?

Évaluations Benchmarks Alignement Sécurité IA

Résumé généré par Claude — vérifié par l'humain

Review Arcade: On the Human Alignment and Gameability of LLM Reviews

Autres angles sur ce sujet