When Actions Disappear: Adversarial Action Removal in Self-Play Reinforcement Learning
Signal
75
Hype
15
En 3 lignesÉtude d'attaques adversariales par suppression d'actions en apprentissage par renforcement auto-jeu. Un attaquant masque sélectivement les actions légales de la victime. Expériences sur poker (6 à 5 531 états) et deux domaines non-poker : le masquage appris cause plus de dégâts que le masquage aléatoire, persiste sur Q-learning/PPO/NFSP/DQN, transfère entre agents et s'amplifie en auto-jeu.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain