FAST-GOAL: Fast and Efficient Global-local Object Alignment Learning
Signal
72
Hype
18
En 3 lignesFAST-GOAL améliore CLIP pour traiter des descriptions textuelles longues via alignement sémantique global-local. La méthode combine extraction efficace de régions locales (FLISM) et apprentissage par similarité de tokens (TSL). Un dataset GLIT100k avec paires image-caption longues et dérivées locales valide l'approche sur DOCCI, DCI, MSCOCO, Flickr30k.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain