Retour au feed
arXiv cs.AI·

TOBench: A Task-Oriented Omni-Modal Benchmark for Real-World Tool-Using Agents

Signal
82
Hype
25
En 3 lignesMM-ToolBench est un benchmark pour agents omni-modaux utilisant des outils en workflows réels. 100 tâches exécutables (service client, création intelligente), 27 serveurs MCP, 324 outils. Vérification multimodale en boucle fermée : les agents exécutent, inspectent et auto-corrigent. Claude Opus 4.6 atteint 32% de succès vs 94% humain.
Lire la source
Ton avis ?
Agents IAMCPBenchmarksClaudeVision

Résumé généré par Claude — vérifié par l'humain