Retour au feed
arXiv cs.AI·

EgoBench: An Interactive Egocentric Multimodal Benchmark for Tool-Using Agents

Signal
78
Hype
25
En 3 lignesEgoBench est un benchmark interactif multimodal pour agents utilisant des outils, comprenant 1 045 tâches vidéo égocentrique couvrant quatre scénarios quotidiens. Huit modèles SOTA atteignent seulement 30,62% de précision au mieux, 19,43% en moyenne, révélant des goulots d'étranglement en perception visuelle et raisonnement multi-hop.
Lire la source
Ton avis ?
Agents IAVisionBenchmarksMulti-agents

Résumé généré par Claude — vérifié par l'humain