DiagEval: Trajectory-Conditioned Diagnosis for Reliable Software Evaluation with GUI Agents
Signal
72
Hype
18
En 3 lignesDiagEval est un protocole d'évaluation diagnostique pour les agents GUI testant des logiciels interactifs générés par LLM. Il réutilise les trajectoires échouées pour identifier si les défaillances proviennent de l'évaluateur ou du logiciel. Sur WebDevJudge-Unit et RealDevBench, DiagEval récupère 45.6-62.1% des faux négatifs et améliore la précision de 69.9% à 78.3% et de 65.0% à 81.6%.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain