arXiv cs.LG·25 mai 2026

Dreaming Smoothly and Sample Efficiently with Gradient Penalized Latent Dynamics

Signal

Hype

En 3 lignesGPLD ajoute une régularisation par pénalité de gradient au modèle DreamerV3 pour encourager l'apprentissage de dynamiques de transition lisses dans l'espace latent. Testé sur DeepMind Control, GPLD améliore l'efficacité échantillon, particulièrement sur les tâches de locomotion complexes et quadrupèdes.

Lire la source

Ton avis ?

Reinforcement learning Papers Benchmarks

Résumé généré par Claude — vérifié par l'humain

Dreaming Smoothly and Sample Efficiently with Gradient Penalized Latent Dynamics

Autres angles sur ce sujet