Retour au feed
arXiv cs.LG·

Not All Transitions Matter: Evidence from PPO

Signal
72
Hype
15
En 3 lignesArticle arXiv montrant que les transitions consécutives en RL on-policy sont redondantes et causent une instabilité cachée. Supprimer aléatoirement 25% des transitions dans PPO stabilise l'entraînement (KL divergence, entropie, estimations de valeur) sans dégrader les récompenses, sur CartPole, Acrobot, LunarLander, HalfCheetah, Hopper.
Lire la source
Ton avis ?
Reinforcement learningPapersBenchmarks

Résumé généré par Claude — vérifié par l'humain