arXiv cs.AI·19 May 2026

COOPO: Cyclic Offline-Online Policy Optimization Algorithm

Signal

Hype

In three linesCOOPO is a hybrid offline-online reinforcement learning algorithm that cycles between KL-regularized offline training and online fine-tuning. Periodic returns to offline training eliminate catastrophic forgetting and distribution drift. On D4RL benchmarks, COOPO reduces online interactions while improving final returns compared to state-of-the-art hybrids.

Read source

Your take?

Reinforcement learning Papers Benchmarks

Summary generated by Claude — human-verified

COOPO: Cyclic Offline-Online Policy Optimization Algorithm

Other angles on this story