arXiv cs.AI·26 mai 2026

MAPLE: Multi-State Aggregated Policy Evaluation for AlphaZero in Imperfect-Information Games

Signal

Hype

En 3 lignesMAPLE, une méthode de recherche arborescente, étend AlphaZero aux jeux à information imparfaite en agrégeant les évaluations de politique et valeur de plusieurs états du monde. Testé sur Phantom Go et Dark Hex, MAPLE surpasse le baseline PIMC-AlphaZero avec des gains Elo de 291 et 136.

Lire la source

Ton avis ?

Raisonnement Reinforcement learning Benchmarks

Résumé généré par Claude — vérifié par l'humain

MAPLE: Multi-State Aggregated Policy Evaluation for AlphaZero in Imperfect-Information Games

Autres angles sur ce sujet