LambdaPO: A Lambda Style Policy Optimization for Reasoning Language Models
Signal
72
Hype
28
En 3 lignesLambdaPO propose une optimisation de politique par comparaisons appariées pour l'alignement des modèles de raisonnement. Contrairement à GRPO qui utilise une baseline statistique unique, LambdaPO décompose l'avantage en différentiels de récompense pairwise entre trajectoires, pondérés par la confiance du modèle. Une récompense de densité sémantique enrichit le signal d'optimisation sur tâches mathématiques et QA.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain