Retour au feed
arXiv cs.LG·

Reducing Credit Assignment Variance via Counterfactual Reasoning Paths

Signal
78
Hype
25
En 3 lignesLes chercheurs proposent IBPO (Implicit Behavior Policy Optimization), une méthode de crédit assignment pour l'apprentissage par renforcement avec LLM. En comparant plusieurs trajectoires de raisonnement, le framework transforme les récompenses terminales éparses en signaux d'apprentissage sensibles aux étapes, réduisant la variance des gradients et améliorant la stabilité sur les benchmarks mathématiques et de code.
Lire la source
Ton avis ?
Reinforcement learningRaisonnementGénération de codePapers

Résumé généré par Claude — vérifié par l'humain