Revisiting Reinforcement Learning with Verifiable Rewards from a Contrastive Perspective
Signal
72
Hype
18
En 3 lignesConSPO, une nouvelle approche d'optimisation de politique au niveau des séquences, améliore GRPO en remplaçant les scores basés sur les ratios écrêtés par des log-probabilités normalisées et en utilisant un objectif contrastif de type InfoNCE. Évaluée sur des benchmarks de raisonnement mathématique, ConSPO surpasse plusieurs baselines RLVR.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain