arXiv cs.LG·20 mai 2026

PROWL: Prioritized Regret-Driven Optimization for World Model Learning

Signal

Hype

En 3 lignesPROWL introduit un curriculum adversarial avec contrainte KL pour améliorer la robustesse des world models vidéo. Une politique expose les trajectoires haute-erreur d'un modèle diffusion tandis qu'un buffer PAT (Prioritized Adversarial Trajectory) re-classe les données selon l'erreur de prédiction et le progrès d'apprentissage. Évaluation sur MineRL montre une robustesse accrue sur trajectoires OOD.

Lire la source

Ton avis ?

Raisonnement Reinforcement learning Papers Benchmarks

Résumé généré par Claude — vérifié par l'humain

PROWL: Prioritized Regret-Driven Optimization for World Model Learning

Autres angles sur ce sujet