Retour au feed
arXiv cs.AI·

Behavior-Aware Auxiliary Corrections for Off-Policy Temporal-Difference Prediction

Signal
72
Hype
08
En 3 lignesArticle théorique sur la stabilisation de l'apprentissage par différence temporelle hors-politique avec approximation de fonction. Propose BA-TDC et BA-TDRC, remplaçant la matrice auxiliaire de TDC par la matrice de Bellman comportementale. Analyse linéaire avec convergence prouvée sous condition de stabilité Hurwitz; expériences sur chaînes de Markov et contres-exemples classiques.
Lire la source
Ton avis ?
Reinforcement learningPapersBenchmarks

Résumé généré par Claude — vérifié par l'humain