VeriGate: Verifier-Gated Step-Level Supervision for GRPO
Signal
82
Hype
18
En 3 lignesVeriGate étend GRPO en combinant récompenses de vérificateur et supervision au niveau des étapes. La méthode utilise un modèle de récompense de processus (PRM) pour assigner du crédit granulaire aux tokens, évitant l'effondrement du gradient quand toutes les trajectoires reçoivent la même récompense. Sur MATH avec Qwen2.5-Instruct (1.5B/7B), VeriGate améliore la précision de ~20% et ~12% respectivement.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain