Retour au feed
arXiv cs.LG·

When Actions Disappear: Adversarial Action Removal in Self-Play Reinforcement Learning

Signal
75
Hype
15
En 3 lignesÉtude d'attaques adversariales par suppression d'actions en apprentissage par renforcement auto-jeu. Un attaquant masque sélectivement les actions légales de la victime. Expériences sur poker (6 à 5 531 états) et deux domaines non-poker : le masquage appris cause plus de dégâts que le masquage aléatoire, persiste sur Q-learning/PPO/NFSP/DQN, transfère entre agents et s'amplifie en auto-jeu.
Lire la source
Ton avis ?
Reinforcement learningSécurité IABenchmarks

Résumé généré par Claude — vérifié par l'humain