arXiv cs.AI·19 mai 2026

GeoWorld-VLM: Geometry from World Models for Vision-Language Models

Signal

Hype

En 3 lignesGeoWorld-VLM améliore les capacités spatiales des Vision-Language Models en transférant des structures géométriques depuis des world models vidéo gelés. La méthode fine-tune uniquement l'encodeur d'image et le projecteur multimodal, alignant les représentations visuelles avec les représentations intermédiaires du world model. Gains de ~4% sur les benchmarks What'sUp et VSR.

Lire la source

Ton avis ?

Vision Raisonnement Fine-tuning

Résumé généré par Claude — vérifié par l'humain

GeoWorld-VLM: Geometry from World Models for Vision-Language Models

Autres angles sur ce sujet