Improving mathematical reasoning with process supervision
OpenAI entraîne un modèle avec supervision de processus (récompenser chaque étape correcte) plutôt que supervision de résultat (récompenser la réponse finale). Cette approche améliore les performances en résolution mathématique et renforce l'alignement en produisant des chaînes de raisonnement validées par les humains.