Time to REFLECT: Can We Trust LLM Judges for Evidence-based Research Agents?
Signal
78
Hype
15
En 3 lignesREFLECT est un benchmark de méta-évaluation pour tester la fiabilité des juges LLM supervisant des agents de recherche. Les auteurs créent une taxonomie fine des défaillances (processus et résultats) via interventions contrôlées sur des traces d'exécution. Résultat : les meilleurs modèles LLM atteignent <55% de précision sur la vérification d'evidence et le raisonnement.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain