EgoBench: An Interactive Egocentric Multimodal Benchmark for Tool-Using Agents
Signal
78
Hype
25
En 3 lignesEgoBench est un benchmark interactif multimodal pour agents utilisant des outils, comprenant 1 045 tâches vidéo égocentrique couvrant quatre scénarios quotidiens. Huit modèles SOTA atteignent seulement 30,62% de précision au mieux, 19,43% en moyenne, révélant des goulots d'étranglement en perception visuelle et raisonnement multi-hop.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain