Not All Transitions Matter: Evidence from PPO
Signal
72
Hype
15
En 3 lignesArticle arXiv montrant que les transitions consécutives en RL on-policy sont redondantes et causent une instabilité cachée. Supprimer aléatoirement 25% des transitions dans PPO stabilise l'entraînement (KL divergence, entropie, estimations de valeur) sans dégrader les récompenses, sur CartPole, Acrobot, LunarLander, HalfCheetah, Hopper.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain