Retour au feed
arXiv cs.CL·

Universal Adversarial Triggers

Signal
72
Hype
25
En 3 lignesÉtude sur les attaques adversariales universelles en NLP. Les auteurs proposent une méthode combinant filtrage morphosyntaxique et perte basée sur la perplexité pour générer des triggers naturels. Sur SST (sentiment analysis), les triggers atteignent 0.04-0.12 d'accuracy. L'entraînement adversarial améliore la robustesse de 0.12 à 0.48.
Lire la source
Ton avis ?
Sécurité IAAlignement

Résumé généré par Claude — vérifié par l'humain