arXiv cs.LG·25 mai 2026

Transcoders Trace Visual Grounding and Hallucinations in Vision-Language Models

Signal

Hype

En 3 lignesDes chercheurs utilisent les Transcoders pour interpréter comment les modèles vision-langage transforment les images en texte. Appliqué à Gemma 3-4B-IT, le framework décompose le modèle en chemins computationnels reliant les patches d'image à la génération de tokens. Les attributions des Transcoders surpassent les SAE pour identifier les hallucinations (AUC 0.68).

Lire la source

Ton avis ?

Vision Évaluations Gemini

Résumé généré par Claude — vérifié par l'humain

Transcoders Trace Visual Grounding and Hallucinations in Vision-Language Models

Autres angles sur ce sujet