arXiv cs.AI·29 mai 2026

Behavior-Aware Auxiliary Corrections for Off-Policy Temporal-Difference Prediction

Signal

Hype

En 3 lignesArticle théorique sur la stabilisation de l'apprentissage par différence temporelle hors-politique avec approximation de fonction. Propose BA-TDC et BA-TDRC, remplaçant la matrice auxiliaire de TDC par la matrice de Bellman comportementale. Analyse linéaire avec convergence prouvée sous condition de stabilité Hurwitz; expériences sur chaînes de Markov et contres-exemples classiques.

Lire la source

Ton avis ?

Reinforcement learning Papers Benchmarks

Résumé généré par Claude — vérifié par l'humain

Behavior-Aware Auxiliary Corrections for Off-Policy Temporal-Difference Prediction

Autres angles sur ce sujet