Faithful-MR1: Faithful Multimodal Reasoning via Anchoring and Reinforcing Visual Attention
Signal
75
Hype
25
En 3 lignesFaithful-MR1 est un framework d'entraînement pour MLLMs qui améliore le raisonnement multimodal via apprentissage par renforcement. Il ancre l'attention visuelle directement sur les régions d'image (pas via descriptions textuelles) et renforce l'utilisation fidèle de cette attention par intervention contrefactuelle. Résultats sur Qwen2.5-VL-Instruct 3B/7B avec moins de données.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain