arXiv cs.AI·27 mai 2026

FAST-GOAL: Fast and Efficient Global-local Object Alignment Learning

Signal

Hype

En 3 lignesFAST-GOAL améliore CLIP pour traiter des descriptions textuelles longues via alignement sémantique global-local. La méthode combine extraction efficace de régions locales (FLISM) et apprentissage par similarité de tokens (TSL). Un dataset GLIT100k avec paires image-caption longues et dérivées locales valide l'approche sur DOCCI, DCI, MSCOCO, Flickr30k.

Lire la source

Ton avis ?

Vision RAG Embeddings Papers

Résumé généré par Claude — vérifié par l'humain

FAST-GOAL: Fast and Efficient Global-local Object Alignment Learning

Autres angles sur ce sujet