arXiv cs.AI·28 mai 2026

EgoBench: An Interactive Egocentric Multimodal Benchmark for Tool-Using Agents

Signal

Hype

En 3 lignesEgoBench est un benchmark interactif multimodal pour agents utilisant des outils, comprenant 1 045 tâches vidéo égocentrique couvrant quatre scénarios quotidiens. Huit modèles SOTA atteignent seulement 30,62% de précision au mieux, 19,43% en moyenne, révélant des goulots d'étranglement en perception visuelle et raisonnement multi-hop.

Lire la source

Ton avis ?

Agents IA Vision Benchmarks Multi-agents

Résumé généré par Claude — vérifié par l'humain

EgoBench: An Interactive Egocentric Multimodal Benchmark for Tool-Using Agents

Autres angles sur ce sujet