Universal Adversarial Triggers
Signal
72
Hype
25
En 3 lignesÉtude sur les attaques adversariales universelles en NLP. Les auteurs proposent une méthode combinant filtrage morphosyntaxique et perte basée sur la perplexité pour générer des triggers naturels. Sur SST (sentiment analysis), les triggers atteignent 0.04-0.12 d'accuracy. L'entraînement adversarial améliore la robustesse de 0.12 à 0.48.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain