COOPO: Cyclic Offline-Online Policy Optimization Algorithm
Signal
72
Hype
28
En 3 lignesCOOPO est un algorithme d'apprentissage par renforcement hybride offline-online qui alterne entre entraînement offline régularisé par KL et fine-tuning online. Le retour cyclique à l'entraînement offline élimine l'oubli catastrophique et la dérive de distribution. Sur les benchmarks D4RL, COOPO réduit les interactions online tout en améliorant les performances finales.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain