arXiv cs.LG·1 juin 2026

VeriGate: Verifier-Gated Step-Level Supervision for GRPO

Signal

Hype

En 3 lignesVeriGate étend GRPO en combinant récompenses de vérificateur et supervision au niveau des étapes. La méthode utilise un modèle de récompense de processus (PRM) pour assigner du crédit granulaire aux tokens, évitant l'effondrement du gradient quand toutes les trajectoires reçoivent la même récompense. Sur MATH avec Qwen2.5-Instruct (1.5B/7B), VeriGate améliore la précision de ~20% et ~12% respectivement.

Lire la source

Ton avis ?

Raisonnement Reinforcement learning Papers

Résumé généré par Claude — vérifié par l'humain

VeriGate: Verifier-Gated Step-Level Supervision for GRPO

Autres angles sur ce sujet