Retour au feed
arXiv cs.CL·

LambdaPO: A Lambda Style Policy Optimization for Reasoning Language Models

Signal
72
Hype
28
En 3 lignesLambdaPO propose une optimisation de politique par comparaisons appariées pour l'alignement des modèles de raisonnement. Contrairement à GRPO qui utilise une baseline statistique unique, LambdaPO décompose l'avantage en différentiels de récompense pairwise entre trajectoires, pondérés par la confiance du modèle. Une récompense de densité sémantique enrichit le signal d'optimisation sur tâches mathématiques et QA.
Lire la source
Ton avis ?
Reinforcement learningRaisonnementAlignement

Résumé généré par Claude — vérifié par l'humain