Retour au feed
arXiv cs.AI·

GeoWorld-VLM: Geometry from World Models for Vision-Language Models

Signal
72
Hype
18
En 3 lignesGeoWorld-VLM améliore les capacités spatiales des Vision-Language Models en transférant des structures géométriques depuis des world models vidéo gelés. La méthode fine-tune uniquement l'encodeur d'image et le projecteur multimodal, alignant les représentations visuelles avec les représentations intermédiaires du world model. Gains de ~4% sur les benchmarks What'sUp et VSR.
Lire la source
Ton avis ?
VisionRaisonnementFine-tuning

Résumé généré par Claude — vérifié par l'humain