Retour au feed
arXiv cs.AI·

Beyond Correctness: Harmonizing Process and Outcome Rewards through RL Training

Signal
78
Hype
15
En 3 lignesPROF, une méthode de sélection de données, combine les récompenses de processus (PRM) et de résultat (ORM) pour améliorer l'apprentissage par renforcement sur les tâches de raisonnement. Elle filtre les exemples d'entraînement en gardant les réponses correctes avec bon support processus et les réponses incorrectes avec faible support, évitant l'instabilité de l'optimisation directe des PRM.
Lire la source
Ton avis ?
Reinforcement learningRaisonnementÉvaluations

Résumé généré par Claude — vérifié par l'humain