arXiv cs.LG·26 mai 2026

Not All Transitions Matter: Evidence from PPO

Signal

Hype

En 3 lignesArticle arXiv montrant que les transitions consécutives en RL on-policy sont redondantes et causent une instabilité cachée. Supprimer aléatoirement 25% des transitions dans PPO stabilise l'entraînement (KL divergence, entropie, estimations de valeur) sans dégrader les récompenses, sur CartPole, Acrobot, LunarLander, HalfCheetah, Hopper.

Lire la source

Ton avis ?

Reinforcement learning Papers Benchmarks

Résumé généré par Claude — vérifié par l'humain

Not All Transitions Matter: Evidence from PPO

Autres angles sur ce sujet