Retour au feed
arXiv cs.AI·

MedCUA-Bench: A Screenshot-Only Benchmark for Clinical Computer-Use Agents

Signal
82
Hype
15
En 3 lignesMedCUA-Bench est un benchmark interactif pour évaluer les agents informatiques dans les interfaces cliniques. Il couvre 18 scénarios médicaux sur 10 domaines avec interfaces authentiques. Les meilleurs modèles fermés atteignent 54,2% de succès strict, les agents open-source 2,5% en moyenne, révélant un écart majeur avec la fiabilité requise.
Lire la source
Ton avis ?
Agents IABenchmarksSécurité IAÉvaluations

Résumé généré par Claude — vérifié par l'humain