arXiv cs.LG·2 juin 2026

Emergence of Exploration in Policy Gradient Reinforcement Learning via Retrying

Signal

Hype

En 3 lignesReMax formalise l'exploration en RL via des retries : une politique est évaluée par le rendement maximal attendu sur M échantillons. L'exploration émerge naturellement sans bonus explicites. RePPO, variante de PPO optimisant ReMax, généralise M à un paramètre continu m, contrôlant finement l'exploration. Résultats sur MinAtar et Craftax.

Lire la source

Ton avis ?

Reinforcement learning Benchmarks

Résumé généré par Claude — vérifié par l'humain

Emergence of Exploration in Policy Gradient Reinforcement Learning via Retrying

Autres angles sur ce sujet