SAPO: Step-Aligned Policy Optimization for Reasoning-Based Generative Recommendation
Signal
75
Hype
15
En 3 lignesSAPO améliore la recommandation générative en alignant l'optimisation par renforcement sur les étapes de raisonnement individuelles. Au lieu d'attribuer un seul avantage à la réponse complète, SAPO calcule un avantage relatif pour chaque étape de raisonnement et token SID, stabilisant l'entraînement et surpassant les baselines sur trois datasets réels.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain