Reading or Guessing? Visual Grounding Failures of Vision-Language Models for OCR in Ancient Greek Editions
Signal
72
Hype
15
En 3 lignesÉtude comparative de modèles vision-langage (VLM) versus OCR traditionnel sur des éditions critiques du grec ancien. Les VLM génèrent du texte plausible mais non visuellement fondé, révélant une dépendance excessive aux priors linguistiques. Perturbations d'images et mesures d'ancrage au niveau des tokens montrent que les erreurs fluentes persistent même sans signal visuel.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain