Retour au feed
arXiv cs.AI·

Review Arcade: On the Human Alignment and Gameability of LLM Reviews

Signal
75
Hype
25
En 3 lignesÉtude empirique sur les revues générées par LLM pour articles scientifiques (données ACL Rolling Review 2025). Résultats : alignement limité entre avis LLM et humains, variation substantielle selon les prompts/modèles. Les auteurs peuvent « gamifier » les revues LLM via révisions itératives, augmentant les scores de 35% des articles testés.
Lire la source
Ton avis ?
ÉvaluationsBenchmarksAlignementSécurité IA

Résumé généré par Claude — vérifié par l'humain