Retour au feed
arXiv cs.LG·

PROWL: Prioritized Regret-Driven Optimization for World Model Learning

Signal
75
Hype
15
En 3 lignesPROWL introduit un curriculum adversarial avec contrainte KL pour améliorer la robustesse des world models vidéo. Une politique expose les trajectoires haute-erreur d'un modèle diffusion tandis qu'un buffer PAT (Prioritized Adversarial Trajectory) re-classe les données selon l'erreur de prédiction et le progrès d'apprentissage. Évaluation sur MineRL montre une robustesse accrue sur trajectoires OOD.
Lire la source
Ton avis ?
RaisonnementReinforcement learningPapersBenchmarks

Résumé généré par Claude — vérifié par l'humain