Retour au feed
arXiv cs.AI·

Action-Gradient Monte Carlo Tree Search for Non-Parametric Continuous (PO)MDPs

Signal
72
Hype
18
En 3 lignesAction-Gradient MCTS (AGMCTS) combine recherche arborescente globale et optimisation d'actions par gradient local pour la planification en ligne dans des espaces continus. Trois contributions théoriques : théorème de gradient de score d'action, arbre MIS pour réutiliser les échantillons, gradients tractables via formule d'aire. Surpasse les solveurs basés sur l'échantillonnage sur benchmarks MDP/POMDP continus.
Lire la source
Ton avis ?
RaisonnementReinforcement learningPapers

Résumé généré par Claude — vérifié par l'humain