Archives

février 2026

58 articles

Hugging Face Blog·

IBM and UC Berkeley Diagnose Why Enterprise Agents Fail Using IT-Bench and MAST

IBM et UC Berkeley lancent IT-Bench et MAST, deux outils de diagnostic pour identifier les défaillances des agents d'entreprise. IT-Bench est un benchmark évaluant les agents sur des tâches informatiques réalistes, tandis que MAST (Multi-Agent Simulation Testbed) simule des environnements complexes pour tester la robustesse des systèmes multi-agents.

Agents IAMulti-agentsBenchmarks
SIG
72
HYP
28