arXiv cs.CL·19 mai 2026

Augmenting Human Evaluation with LLM Judges: How Many Human Reviews Do You Need?

Signal

Hype

En 3 lignesArticle arXiv proposant un cadre formel pour combiner évaluations LLM et humaines. Utilise un estimateur doublement robuste (missing data) pour déterminer le nombre optimal de revues humaines nécessaires. Shift du rôle LLM : de substitutif à auxiliaire dans un design d'échantillonnage deux étapes.

Lire la source

Ton avis ?

Évaluations Benchmarks Sécurité IA Alignement

Résumé généré par Claude — vérifié par l'humain

Augmenting Human Evaluation with LLM Judges: How Many Human Reviews Do You Need?

Autres angles sur ce sujet