MAPLE: Multi-State Aggregated Policy Evaluation for AlphaZero in Imperfect-Information Games
Signal
72
Hype
18
En 3 lignesMAPLE, une méthode de recherche arborescente, étend AlphaZero aux jeux à information imparfaite en agrégeant les évaluations de politique et valeur de plusieurs états du monde. Testé sur Phantom Go et Dark Hex, MAPLE surpasse le baseline PIMC-AlphaZero avec des gains Elo de 291 et 136.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain