Retour au feed
arXiv cs.AI·

ISEP: Implicit Support Expansion for Offline Reinforcement Learning via Stochastic Policy Optimization

Signal
72
Hype
15
En 3 lignesISEP propose une méthode d'apprentissage par renforcement hors ligne qui élargit implicitement le support des actions en interpolant entre données en distribution et échantillons de politique. Un mécanisme stochastique alterne entre clonage conservateur et signaux d'expansion optimiste, implémenté via Flow Matching conditionnel avec guidance sans classifieur.
Lire la source
Ton avis ?
Reinforcement learningPapers

Résumé généré par Claude — vérifié par l'humain