Retour au feed
arXiv cs.CL·

Time to REFLECT: Can We Trust LLM Judges for Evidence-based Research Agents?

Signal
78
Hype
15
En 3 lignesREFLECT est un benchmark de méta-évaluation pour tester la fiabilité des juges LLM supervisant des agents de recherche. Les auteurs créent une taxonomie fine des défaillances (processus et résultats) via interventions contrôlées sur des traces d'exécution. Résultat : les meilleurs modèles LLM atteignent <55% de précision sur la vérification d'evidence et le raisonnement.
Lire la source
Ton avis ?
Agents IAÉvaluationsRaisonnementPapers

Résumé généré par Claude — vérifié par l'humain