Retour au feed
Hugging Face Blog·

IBM and UC Berkeley Diagnose Why Enterprise Agents Fail Using IT-Bench and MAST

Signal
72
Hype
28
En 3 lignesIBM et UC Berkeley lancent IT-Bench et MAST, deux outils de diagnostic pour identifier les défaillances des agents d'entreprise. IT-Bench est un benchmark évaluant les agents sur des tâches informatiques réalistes, tandis que MAST (Multi-Agent Simulation Testbed) simule des environnements complexes pour tester la robustesse des systèmes multi-agents.
Lire la source
Ton avis ?
Agents IAMulti-agentsBenchmarksÉvaluations

Résumé généré par Claude — vérifié par l'humain