arXiv cs.LG·29 mai 2026

Self-Play Reinforcement Learning under Imperfect Information in Big 2

Signal

Hype

En 3 lignesÉtude de l'apprentissage par renforcement en auto-jeu dans Big 2, un jeu de cartes à 4 joueurs avec information imparfaite. PPO surpasse Q-learning, SARSA et Monte Carlo Q-approximation contre des adversaires aléatoires, gloutons et heuristiques. La régularisation d'entropie modérée et l'auto-jeu en politique courante améliorent les performances.

Lire la source

Ton avis ?

Reinforcement learning Multi-agents Benchmarks

Résumé généré par Claude — vérifié par l'humain

Self-Play Reinforcement Learning under Imperfect Information in Big 2

Autres angles sur ce sujet