Retour au feed
arXiv cs.AI·

MAPLE: Multi-State Aggregated Policy Evaluation for AlphaZero in Imperfect-Information Games

Signal
72
Hype
18
En 3 lignesMAPLE, une méthode de recherche arborescente, étend AlphaZero aux jeux à information imparfaite en agrégeant les évaluations de politique et valeur de plusieurs états du monde. Testé sur Phantom Go et Dark Hex, MAPLE surpasse le baseline PIMC-AlphaZero avec des gains Elo de 291 et 136.
Lire la source
Ton avis ?
RaisonnementReinforcement learningBenchmarks

Résumé généré par Claude — vérifié par l'humain