arXiv cs.AI·20 mai 2026

Beyond Mode Collapse: Distribution Matching for Diverse Reasoning

Signal

Hype

En 3 lignesDMPO (Distribution-Matching Policy Optimization) résout l'effondrement modal dans les méthodes RL on-policy comme GRPO en utilisant l'approximation forward KL au lieu de reverse KL. Sur NP-Bench texte et vision, DMPO atteint 43.9% et 43.1% de Quality Ratio (vs 40.1% et 38.4% pour GRPO), avec gains de +2.0% en raisonnement mathématique.

Lire la source

Ton avis ?

Reinforcement learning Raisonnement Benchmarks

Résumé généré par Claude — vérifié par l'humain

Beyond Mode Collapse: Distribution Matching for Diverse Reasoning

Autres angles sur ce sujet