Retour au feed
arXiv cs.AI·

CHI-Bench: Can AI Agents Automate End-to-End, Long-Horizon, Policy-Rich Healthcare Workflows?

Signal
82
Hype
15
En 3 lignesCHI-Bench évalue la capacité des agents IA à automatiser des workflows healthcare complexes (autorisation préalable, gestion d'utilisation, gestion des soins) sur 87 outils MCP et 20 applications. Le meilleur agent ne résout que 28% des tâches; aucun n'atteint 20% en mode strict. Performance chute à 3,8% en session unique.
Lire la source
Ton avis ?
Agents IAMCPBenchmarksMulti-agentsRaisonnement

Résumé généré par Claude — vérifié par l'humain