arXiv cs.CL·28 mai 2026

Escape the Language Prior: Mitigating Late-Stage Modality Collapse in Audio Reasoning via Modality-Aware Policy Optimization

Signal

Hype

En 3 lignesModality-Aware Policy Optimization (MAPO) corrige l'effondrement modal tardif dans les modèles audio-texte lors du fine-tuning par RL. La méthode concentre les gradients de politique sur les tokens critiques via un masque de pertinence modale et ajoute une pénalité d'attention pour maintenir l'ancrage cross-modal. MAPO atteint SOTA sur plusieurs benchmarks audio complexes.

Lire la source

Ton avis ?

Reinforcement learning Raisonnement Alignement

Résumé généré par Claude — vérifié par l'humain

Escape the Language Prior: Mitigating Late-Stage Modality Collapse in Audio Reasoning via Modality-Aware Policy Optimization

Autres angles sur ce sujet