TOBench: A Task-Oriented Omni-Modal Benchmark for Real-World Tool-Using Agents
Signal
82
Hype
25
En 3 lignesMM-ToolBench est un benchmark pour agents omni-modaux utilisant des outils en workflows réels. 100 tâches exécutables (service client, création intelligente), 27 serveurs MCP, 324 outils. Vérification multimodale en boucle fermée : les agents exécutent, inspectent et auto-corrigent. Claude Opus 4.6 atteint 32% de succès vs 94% humain.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain