Retour au feed
arXiv cs.AI·

DiagEval: Trajectory-Conditioned Diagnosis for Reliable Software Evaluation with GUI Agents

Signal
72
Hype
18
En 3 lignesDiagEval est un protocole d'évaluation diagnostique pour les agents GUI testant des logiciels interactifs générés par LLM. Il réutilise les trajectoires échouées pour identifier si les défaillances proviennent de l'évaluateur ou du logiciel. Sur WebDevJudge-Unit et RealDevBench, DiagEval récupère 45.6-62.1% des faux négatifs et améliore la précision de 69.9% à 78.3% et de 65.0% à 81.6%.
Lire la source
Ton avis ?
Agents IAÉvaluationsGénération de code

Résumé généré par Claude — vérifié par l'humain