arXiv cs.AI·19 mai 2026

TOBench: A Task-Oriented Omni-Modal Benchmark for Real-World Tool-Using Agents

Signal

Hype

En 3 lignesMM-ToolBench est un benchmark pour agents omni-modaux utilisant des outils en workflows réels. 100 tâches exécutables (service client, création intelligente), 27 serveurs MCP, 324 outils. Vérification multimodale en boucle fermée : les agents exécutent, inspectent et auto-corrigent. Claude Opus 4.6 atteint 32% de succès vs 94% humain.

Lire la source

Ton avis ?

Agents IA MCP Benchmarks Claude Vision

Résumé généré par Claude — vérifié par l'humain

TOBench: A Task-Oriented Omni-Modal Benchmark for Real-World Tool-Using Agents

Autres angles sur ce sujet