arXiv cs.AI·19 mai 2026

EfficientTDMPC: Improved MPC Objectives for Sample-Efficient Continuous Control

Signal

Hype

En 3 lignesEfficientTDMPC améliore l'efficacité échantillon du contrôle continu en renforcement par modèle. La méthode utilise un ensemble de modèles de dynamique, moyenne les estimations de rendement sur plusieurs profondeurs de rollout, et ajoute une pénalité d'incertitude au planificateur. Elle atteint SOTA sur HumanoidBench-Hard et DMC hard en régime faible données.

Lire la source

Ton avis ?

Reinforcement learning Benchmarks Papers

Résumé généré par Claude — vérifié par l'humain

EfficientTDMPC: Improved MPC Objectives for Sample-Efficient Continuous Control

Autres angles sur ce sujet