CHI-Bench: Can AI Agents Automate End-to-End, Long-Horizon, Policy-Rich Healthcare Workflows?
Signal
82
Hype
15
En 3 lignesCHI-Bench évalue la capacité des agents IA à automatiser des workflows healthcare complexes (autorisation préalable, gestion d'utilisation, gestion des soins) sur 87 outils MCP et 20 applications. Le meilleur agent ne résout que 28% des tâches; aucun n'atteint 20% en mode strict. Performance chute à 3,8% en session unique.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain