Retour au feed
arXiv cs.AI·

Randomized Advantage Transformation (RAT): Computing Natural Policy Gradients via Direct Backpropagation

Signal
75
Hype
15
En 3 lignesRAT (Randomized Advantage Transformation) estime les gradients de politique naturelle régularisés via rétropropagation directe, sans construire explicitement la matrice de Fisher. La méthode utilise la formule de Woodbury et les itérations de Kaczmarz aléatoires sur mini-batches on-policy. Résultats comparables ou supérieurs aux méthodes de gradient naturel établies sur benchmarks de contrôle continu et visuel.
Lire la source
Ton avis ?
Reinforcement learningRaisonnementPapers

Résumé généré par Claude — vérifié par l'humain