arXiv cs.AI·19 mai 2026

ISEP: Implicit Support Expansion for Offline Reinforcement Learning via Stochastic Policy Optimization

Signal

Hype

En 3 lignesISEP propose une méthode d'apprentissage par renforcement hors ligne qui élargit implicitement le support des actions en interpolant entre données en distribution et échantillons de politique. Un mécanisme stochastique alterne entre clonage conservateur et signaux d'expansion optimiste, implémenté via Flow Matching conditionnel avec guidance sans classifieur.

Lire la source

Ton avis ?

Reinforcement learning Papers

Résumé généré par Claude — vérifié par l'humain

ISEP: Implicit Support Expansion for Offline Reinforcement Learning via Stochastic Policy Optimization

Autres angles sur ce sujet