Beyond Mode Collapse: Distribution Matching for Diverse Reasoning
Signal
75
Hype
25
En 3 lignesDMPO (Distribution-Matching Policy Optimization) résout l'effondrement modal dans les méthodes RL on-policy comme GRPO en utilisant l'approximation forward KL au lieu de reverse KL. Sur NP-Bench texte et vision, DMPO atteint 43.9% et 43.1% de Quality Ratio (vs 40.1% et 38.4% pour GRPO), avec gains de +2.0% en raisonnement mathématique.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain