arXiv cs.AI·19 mai 2026

COOPO: Cyclic Offline-Online Policy Optimization Algorithm

Signal

Hype

En 3 lignesCOOPO est un algorithme d'apprentissage par renforcement hybride offline-online qui alterne entre entraînement offline régularisé par KL et fine-tuning online. Le retour cyclique à l'entraînement offline élimine l'oubli catastrophique et la dérive de distribution. Sur les benchmarks D4RL, COOPO réduit les interactions online tout en améliorant les performances finales.

Lire la source

Ton avis ?

Reinforcement learning Papers Benchmarks

Résumé généré par Claude — vérifié par l'humain

COOPO: Cyclic Offline-Online Policy Optimization Algorithm

Autres angles sur ce sujet