How Off-Policy Can GRPO Be? Mu-GRPO for Efficient LLM Reinforcement Learning
Signal
78
Hype
15
En 3 lignesMu-GRPO améliore l'efficacité de GRPO en tolérant une plus grande staleness des rollouts. Le framework organise l'entraînement en 4 stages séquentiels génération-optimisation, réduisant le surcoût système de 2x tout en maintenant les performances sur les benchmarks de raisonnement mathématique.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain