Retour au feed
arXiv cs.CL·

Escape the Language Prior: Mitigating Late-Stage Modality Collapse in Audio Reasoning via Modality-Aware Policy Optimization

Signal
78
Hype
25
En 3 lignesModality-Aware Policy Optimization (MAPO) corrige l'effondrement modal tardif dans les modèles audio-texte lors du fine-tuning par RL. La méthode concentre les gradients de politique sur les tokens critiques via un masque de pertinence modale et ajoute une pénalité d'attention pour maintenir l'ancrage cross-modal. MAPO atteint SOTA sur plusieurs benchmarks audio complexes.
Lire la source
Ton avis ?
Reinforcement learningRaisonnementAlignement

Résumé généré par Claude — vérifié par l'humain