EfficientTDMPC: Improved MPC Objectives for Sample-Efficient Continuous Control
Signal
72
Hype
18
En 3 lignesEfficientTDMPC améliore l'efficacité échantillon du contrôle continu en renforcement par modèle. La méthode utilise un ensemble de modèles de dynamique, moyenne les estimations de rendement sur plusieurs profondeurs de rollout, et ajoute une pénalité d'incertitude au planificateur. Elle atteint SOTA sur HumanoidBench-Hard et DMC hard en régime faible données.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain