Beyond Correctness: Harmonizing Process and Outcome Rewards through RL Training
Signal
78
Hype
15
En 3 lignesPROF, une méthode de sélection de données, combine les récompenses de processus (PRM) et de résultat (ORM) pour améliorer l'apprentissage par renforcement sur les tâches de raisonnement. Elle filtre les exemples d'entraînement en gardant les réponses correctes avec bon support processus et les réponses incorrectes avec faible support, évitant l'instabilité de l'optimisation directe des PRM.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain