arXiv cs.CL·19 mai 2026

Vision-OPD: Learning to See Fine Details for Multimodal LLMs via On-Policy Self-Distillation

Signal

Hype

En 3 lignesVision-OPD propose une auto-distillation régionale-globale pour améliorer la compréhension visuelle fine des MLLMs. Le framework transfère la perception privilégiée du modèle sur des crops centrés sur les preuves vers sa politique pleine image, via minimisation de divergence KL token-level sur rollouts on-policy. Résultats compétitifs sur benchmarks de compréhension visuelle fine sans modèles externes ni labels.

Lire la source

Ton avis ?

Vision Reinforcement learning Papers

Résumé généré par Claude — vérifié par l'humain

Vision-OPD: Learning to See Fine Details for Multimodal LLMs via On-Policy Self-Distillation

Autres angles sur ce sujet