arXiv cs.CL·28 mai 2026

Reading or Guessing? Visual Grounding Failures of Vision-Language Models for OCR in Ancient Greek Editions

Signal

Hype

En 3 lignesÉtude comparative de modèles vision-langage (VLM) versus OCR traditionnel sur des éditions critiques du grec ancien. Les VLM génèrent du texte plausible mais non visuellement fondé, révélant une dépendance excessive aux priors linguistiques. Perturbations d'images et mesures d'ancrage au niveau des tokens montrent que les erreurs fluentes persistent même sans signal visuel.

Lire la source

Ton avis ?

Vision Évaluations Papers

Résumé généré par Claude — vérifié par l'humain

Reading or Guessing? Visual Grounding Failures of Vision-Language Models for OCR in Ancient Greek Editions

Autres angles sur ce sujet