Retour au feed
arXiv cs.AI·

Behavior-Induced Mirror-Prox Temporal-Difference Learning for Faster Off-Policy Prediction

Signal
72
Hype
08
En 3 lignesSTHTD-MP, une nouvelle méthode de temporal-difference off-policy, remplace la métrique de covariance par la matrice de Bellman induite par la politique de comportement dans la formulation primal-dual. Analyse de convergence formelle et comparaison spectrale avec GTD2-MP montrent des gains potentiels sur benchmarks (Random Walk, Boyan Chain).
Lire la source
Ton avis ?
Reinforcement learningPapersBenchmarks

Résumé généré par Claude — vérifié par l'humain