Retour au feed
arXiv cs.LG·

Self-Play Reinforcement Learning under Imperfect Information in Big 2

Signal
72
Hype
15
En 3 lignesÉtude de l'apprentissage par renforcement en auto-jeu dans Big 2, un jeu de cartes à 4 joueurs avec information imparfaite. PPO surpasse Q-learning, SARSA et Monte Carlo Q-approximation contre des adversaires aléatoires, gloutons et heuristiques. La régularisation d'entropie modérée et l'auto-jeu en politique courante améliorent les performances.
Lire la source
Ton avis ?
Reinforcement learningMulti-agentsBenchmarks

Résumé généré par Claude — vérifié par l'humain