arXiv cs.CL·20 mai 2026

LambdaPO: A Lambda Style Policy Optimization for Reasoning Language Models

Signal

Hype

En 3 lignesLambdaPO propose une optimisation de politique par comparaisons appariées pour l'alignement des modèles de raisonnement. Contrairement à GRPO qui utilise une baseline statistique unique, LambdaPO décompose l'avantage en différentiels de récompense pairwise entre trajectoires, pondérés par la confiance du modèle. Une récompense de densité sémantique enrichit le signal d'optimisation sur tâches mathématiques et QA.

Lire la source

Ton avis ?

Reinforcement learning Raisonnement Alignement

Résumé généré par Claude — vérifié par l'humain

LambdaPO: A Lambda Style Policy Optimization for Reasoning Language Models

Autres angles sur ce sujet