Retour au feed
arXiv cs.LG·

VeriGate: Verifier-Gated Step-Level Supervision for GRPO

Signal
82
Hype
18
En 3 lignesVeriGate étend GRPO en combinant récompenses de vérificateur et supervision au niveau des étapes. La méthode utilise un modèle de récompense de processus (PRM) pour assigner du crédit granulaire aux tokens, évitant l'effondrement du gradient quand toutes les trajectoires reçoivent la même récompense. Sur MATH avec Qwen2.5-Instruct (1.5B/7B), VeriGate améliore la précision de ~20% et ~12% respectivement.
Lire la source
Ton avis ?
RaisonnementReinforcement learningPapers

Résumé généré par Claude — vérifié par l'humain