arXiv cs.AI·19 mai 2026

See What I Mean: Aligning Vision and Language Representations for Video Fine-grained Object Understanding

Signal

Hype

En 3 lignesSWIM aligne les représentations vision-langage pour la compréhension fine d'objets vidéo via prompts textuels seuls. Utilise la supervision de masques en entraînement pour guider l'attention cross-modale. Construit NL-Refer, dataset enrichi avec expressions référentes précises. Surpasse les méthodes basées prompts visuels sur les benchmarks.

Lire la source

Ton avis ?

Vision RAG Embeddings Papers

Résumé généré par Claude — vérifié par l'humain

See What I Mean: Aligning Vision and Language Representations for Video Fine-grained Object Understanding

Autres angles sur ce sujet