Learning Relative Representations for Fine-Grained Multimodal Alignment with Limited Data
Signal
72
Hype
18
En 3 lignesMéthode post-hoc d'alignement multimodal utilisant des représentations relatives au niveau token pour appareiller encodeurs pré-entraînés avec peu de données. Apprentissage d'ancres learnable dans chaque espace modal pour induire des patterns de similarité cross-modal cohérents. Surpasse les méthodes existantes en classification zero-shot, retrieval cross-modal et segmentation zero-shot.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain