Retour au feed
arXiv cs.AI·

SPACENUM: Revisiting Spatial Numerical Understanding in VLMs

Signal
72
Hype
18
En 3 lignesSpaceNum évalue la compréhension numérique spatiale dans les VLMs via deux tâches bidirectionnelles (Num2Space, Space2Num). Les modèles actuels échouent largement à ancrer les nombres dans le sens spatial, performant près du hasard. Ils s'appuient sur des indices spatiaux superficiels et ne construisent pas de représentations stables basées sur les coordonnées.
Lire la source
Ton avis ?
VisionBenchmarksRaisonnement

Résumé généré par Claude — vérifié par l'humain