Retour au feed
arXiv cs.CL·

CHI-Bench: Can AI Agents Automate End-to-End, Long-Horizon, Policy-Rich Healthcare Workflows?

Signal
82
Hype
15
En 3 lignesCHI-Bench évalue l'automatisation d'workflows healthcare complexes via agents IA. Le benchmark couvre 3 domaines (autorisation préalable, gestion d'utilisation, gestion des soins) avec 87 outils MCP et 1 290+ documents de règles. Meilleur résultat : 28% de tâches résolues, 3,8% en session unique.
Lire la source
Ton avis ?
Agents IAMulti-agentsMCPBenchmarksRaisonnement

Résumé généré par Claude — vérifié par l'humain