arXiv cs.AI·19 mai 2026

Learning Relative Representations for Fine-Grained Multimodal Alignment with Limited Data

Signal

Hype

En 3 lignesMéthode post-hoc d'alignement multimodal utilisant des représentations relatives au niveau token pour appareiller encodeurs pré-entraînés avec peu de données. Apprentissage d'ancres learnable dans chaque espace modal pour induire des patterns de similarité cross-modal cohérents. Surpasse les méthodes existantes en classification zero-shot, retrieval cross-modal et segmentation zero-shot.

Lire la source

Ton avis ?

Embeddings Vision RAG

Résumé généré par Claude — vérifié par l'humain

Learning Relative Representations for Fine-Grained Multimodal Alignment with Limited Data

Autres angles sur ce sujet