arXiv cs.CL·19 mai 2026

How Off-Policy Can GRPO Be? Mu-GRPO for Efficient LLM Reinforcement Learning

Signal

Hype

En 3 lignesMu-GRPO améliore l'efficacité de GRPO en tolérant une plus grande staleness des rollouts. Le framework organise l'entraînement en 4 stages séquentiels génération-optimisation, réduisant le surcoût système de 2x tout en maintenant les performances sur les benchmarks de raisonnement mathématique.

Lire la source

Ton avis ?

Reinforcement learning Raisonnement Benchmarks

Résumé généré par Claude — vérifié par l'humain

How Off-Policy Can GRPO Be? Mu-GRPO for Efficient LLM Reinforcement Learning

Autres angles sur ce sujet