arXiv cs.CL·22 mai 2026

Faithful-MR1: Faithful Multimodal Reasoning via Anchoring and Reinforcing Visual Attention

Signal

Hype

En 3 lignesFaithful-MR1 est un framework d'entraînement pour MLLMs qui améliore le raisonnement multimodal via apprentissage par renforcement. Il ancre l'attention visuelle directement sur les régions d'image (pas via descriptions textuelles) et renforce l'utilisation fidèle de cette attention par intervention contrefactuelle. Résultats sur Qwen2.5-VL-Instruct 3B/7B avec moins de données.

Lire la source

Ton avis ?

Reinforcement learning Vision Raisonnement Qwen

Résumé généré par Claude — vérifié par l'humain

Faithful-MR1: Faithful Multimodal Reasoning via Anchoring and Reinforcing Visual Attention

Autres angles sur ce sujet