Behavior-Induced Mirror-Prox Temporal-Difference Learning for Faster Off-Policy Prediction
Signal
72
Hype
08
En 3 lignesSTHTD-MP, une nouvelle méthode de temporal-difference off-policy, remplace la métrique de covariance par la matrice de Bellman induite par la politique de comportement dans la formulation primal-dual. Analyse de convergence formelle et comparaison spectrale avec GTD2-MP montrent des gains potentiels sur benchmarks (Random Walk, Boyan Chain).Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain