Retour au feed
arXiv cs.AI·

EfficientTDMPC: Improved MPC Objectives for Sample-Efficient Continuous Control

Signal
72
Hype
18
En 3 lignesEfficientTDMPC améliore l'efficacité échantillon du contrôle continu en renforcement par modèle. La méthode utilise un ensemble de modèles de dynamique, moyenne les estimations de rendement sur plusieurs profondeurs de rollout, et ajoute une pénalité d'incertitude au planificateur. Elle atteint SOTA sur HumanoidBench-Hard et DMC hard en régime faible données.
Lire la source
Ton avis ?
Reinforcement learningBenchmarksPapers

Résumé généré par Claude — vérifié par l'humain