arXiv cs.AI·19 mai 2026

Revisiting Reinforcement Learning with Verifiable Rewards from a Contrastive Perspective

Signal

Hype

En 3 lignesConSPO, une nouvelle approche d'optimisation de politique au niveau des séquences, améliore GRPO en remplaçant les scores basés sur les ratios écrêtés par des log-probabilités normalisées et en utilisant un objectif contrastif de type InfoNCE. Évaluée sur des benchmarks de raisonnement mathématique, ConSPO surpasse plusieurs baselines RLVR.

Lire la source

Ton avis ?

Reinforcement learning Raisonnement Benchmarks

Résumé généré par Claude — vérifié par l'humain

Revisiting Reinforcement Learning with Verifiable Rewards from a Contrastive Perspective

Autres angles sur ce sujet