Retour au feed
arXiv cs.LG·

Theoretical Foundations and Effective Algorithms for Policy-Aware Simulator Learning

Signal
78
Hype
15
En 3 lignesArticle arXiv proposant une approche de robustesse stratégique pour l'apprentissage de simulateurs en MBRL. Formule l'objectif comme un jeu minimax entre un modèle et une politique adversariale. Démontre convergence avec regret sublinéaire et dualité Error-MDP. Expériences montrent réduction d'erreur prédictive de 1.5–2.2× et politiques simulées atteignant performance quasi-optimale réelle.
Lire la source
Ton avis ?
Reinforcement learningPapersRaisonnement

Résumé généré par Claude — vérifié par l'humain