Retour au feed
arXiv cs.LG·

Dreaming Smoothly and Sample Efficiently with Gradient Penalized Latent Dynamics

Signal
72
Hype
15
En 3 lignesGPLD ajoute une régularisation par pénalité de gradient au modèle DreamerV3 pour encourager l'apprentissage de dynamiques de transition lisses dans l'espace latent. Testé sur DeepMind Control, GPLD améliore l'efficacité échantillon, particulièrement sur les tâches de locomotion complexes et quadrupèdes.
Lire la source
Ton avis ?
Reinforcement learningPapersBenchmarks

Résumé généré par Claude — vérifié par l'humain