Retour au feed
arXiv cs.AI·

Learning Relative Representations for Fine-Grained Multimodal Alignment with Limited Data

Signal
72
Hype
18
En 3 lignesMéthode post-hoc d'alignement multimodal utilisant des représentations relatives au niveau token pour appareiller encodeurs pré-entraînés avec peu de données. Apprentissage d'ancres learnable dans chaque espace modal pour induire des patterns de similarité cross-modal cohérents. Surpasse les méthodes existantes en classification zero-shot, retrieval cross-modal et segmentation zero-shot.
Lire la source
Ton avis ?
EmbeddingsVisionRAG

Résumé généré par Claude — vérifié par l'humain