Emergence of Exploration in Policy Gradient Reinforcement Learning via Retrying
Signal
72
Hype
18
En 3 lignesReMax formalise l'exploration en RL via des retries : une politique est évaluée par le rendement maximal attendu sur M échantillons. L'exploration émerge naturellement sans bonus explicites. RePPO, variante de PPO optimisant ReMax, généralise M à un paramètre continu m, contrôlant finement l'exploration. Résultats sur MinAtar et Craftax.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain