arXiv cs.AI·19 mai 2026

CHI-Bench: Can AI Agents Automate End-to-End, Long-Horizon, Policy-Rich Healthcare Workflows?

Signal

Hype

En 3 lignesCHI-Bench évalue la capacité des agents IA à automatiser des workflows healthcare complexes (autorisation préalable, gestion d'utilisation, gestion des soins) sur 87 outils MCP et 20 applications. Le meilleur agent ne résout que 28% des tâches; aucun n'atteint 20% en mode strict. Performance chute à 3,8% en session unique.

Lire la source

Ton avis ?

Agents IA MCP Benchmarks Multi-agents Raisonnement

Résumé généré par Claude — vérifié par l'humain

CHI-Bench: Can AI Agents Automate End-to-End, Long-Horizon, Policy-Rich Healthcare Workflows?

Autres angles sur ce sujet