arXiv cs.LG·29 mai 2026

Theoretical Foundations and Effective Algorithms for Policy-Aware Simulator Learning

Signal

Hype

En 3 lignesArticle arXiv proposant une approche de robustesse stratégique pour l'apprentissage de simulateurs en MBRL. Formule l'objectif comme un jeu minimax entre un modèle et une politique adversariale. Démontre convergence avec regret sublinéaire et dualité Error-MDP. Expériences montrent réduction d'erreur prédictive de 1.5–2.2× et politiques simulées atteignant performance quasi-optimale réelle.

Lire la source

Ton avis ?

Reinforcement learning Papers Raisonnement

Résumé généré par Claude — vérifié par l'humain

Theoretical Foundations and Effective Algorithms for Policy-Aware Simulator Learning

Autres angles sur ce sujet