Retour au feed
arXiv cs.AI·

See What I Mean: Aligning Vision and Language Representations for Video Fine-grained Object Understanding

Signal
75
Hype
25
En 3 lignesSWIM aligne les représentations vision-langage pour la compréhension fine d'objets vidéo via prompts textuels seuls. Utilise la supervision de masques en entraînement pour guider l'attention cross-modale. Construit NL-Refer, dataset enrichi avec expressions référentes précises. Surpasse les méthodes basées prompts visuels sur les benchmarks.
Lire la source
Ton avis ?
VisionRAGEmbeddingsPapers

Résumé généré par Claude — vérifié par l'humain