Retour au feed
arXiv cs.AI·

Revisiting Reinforcement Learning with Verifiable Rewards from a Contrastive Perspective

Signal
72
Hype
18
En 3 lignesConSPO, une nouvelle approche d'optimisation de politique au niveau des séquences, améliore GRPO en remplaçant les scores basés sur les ratios écrêtés par des log-probabilités normalisées et en utilisant un objectif contrastif de type InfoNCE. Évaluée sur des benchmarks de raisonnement mathématique, ConSPO surpasse plusieurs baselines RLVR.
Lire la source
Ton avis ?
Reinforcement learningRaisonnementBenchmarks

Résumé généré par Claude — vérifié par l'humain