arXiv cs.AI·19 May 2026

ISEP: Implicit Support Expansion for Offline Reinforcement Learning via Stochastic Policy Optimization

Signal

Hype

In three linesISEP proposes an offline reinforcement learning method that implicitly expands action support by interpolating between in-distribution data and policy samples. A stochastic mechanism alternates between conservative cloning and optimistic expansion signals, implemented via Conditional Flow Matching with classifier-free guidance.

Read source

Your take?

Reinforcement learning Papers

Summary generated by Claude — human-verified

ISEP: Implicit Support Expansion for Offline Reinforcement Learning via Stochastic Policy Optimization

Other angles on this story