Retour au feed
arXiv cs.LG·

Moment Matching Q-Learning

Signal
72
Hype
18
En 3 lignesMoMa QL utilise la divergence maximum mean discrepancy (MMD) pour accélérer l'inférence des modèles génératifs score-based et flow-based en RL. La méthode garantit la convergence au niveau distribution et améliore les performances en offline-to-online RL sur les benchmarks D4RL.
Lire la source
Ton avis ?
Reinforcement learningRaisonnementBenchmarks

Résumé généré par Claude — vérifié par l'humain