arXiv cs.AI·29 mai 2026

Behavior-Induced Mirror-Prox Temporal-Difference Learning for Faster Off-Policy Prediction

Signal

Hype

En 3 lignesSTHTD-MP, une nouvelle méthode de temporal-difference off-policy, remplace la métrique de covariance par la matrice de Bellman induite par la politique de comportement dans la formulation primal-dual. Analyse de convergence formelle et comparaison spectrale avec GTD2-MP montrent des gains potentiels sur benchmarks (Random Walk, Boyan Chain).

Lire la source

Ton avis ?

Reinforcement learning Papers Benchmarks

Résumé généré par Claude — vérifié par l'humain

Behavior-Induced Mirror-Prox Temporal-Difference Learning for Faster Off-Policy Prediction

Autres angles sur ce sujet