Moment Matching Q-Learning
Signal
72
Hype
18
En 3 lignesMoMa QL utilise la divergence maximum mean discrepancy (MMD) pour accélérer l'inférence des modèles génératifs score-based et flow-based en RL. La méthode garantit la convergence au niveau distribution et améliore les performances en offline-to-online RL sur les benchmarks D4RL.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain