arXiv cs.CL·20 mai 2026

Time to REFLECT: Can We Trust LLM Judges for Evidence-based Research Agents?

Signal

Hype

En 3 lignesREFLECT est un benchmark de méta-évaluation pour tester la fiabilité des juges LLM supervisant des agents de recherche. Les auteurs créent une taxonomie fine des défaillances (processus et résultats) via interventions contrôlées sur des traces d'exécution. Résultat : les meilleurs modèles LLM atteignent <55% de précision sur la vérification d'evidence et le raisonnement.

Lire la source

Ton avis ?

Agents IA Évaluations Raisonnement Papers

Résumé généré par Claude — vérifié par l'humain

Time to REFLECT: Can We Trust LLM Judges for Evidence-based Research Agents?

Autres angles sur ce sujet