arXiv cs.AI·3 juin 2026

MedCUA-Bench: A Screenshot-Only Benchmark for Clinical Computer-Use Agents

Signal

Hype

En 3 lignesMedCUA-Bench est un benchmark interactif pour évaluer les agents informatiques dans les interfaces cliniques. Il couvre 18 scénarios médicaux sur 10 domaines avec interfaces authentiques. Les meilleurs modèles fermés atteignent 54,2% de succès strict, les agents open-source 2,5% en moyenne, révélant un écart majeur avec la fiabilité requise.

Lire la source

Ton avis ?

Agents IA Benchmarks Sécurité IA Évaluations

Résumé généré par Claude — vérifié par l'humain

MedCUA-Bench: A Screenshot-Only Benchmark for Clinical Computer-Use Agents

Autres angles sur ce sujet