arXiv cs.CL·19 mai 2026

Universal Adversarial Triggers

Signal

Hype

En 3 lignesÉtude sur les attaques adversariales universelles en NLP. Les auteurs proposent une méthode combinant filtrage morphosyntaxique et perte basée sur la perplexité pour générer des triggers naturels. Sur SST (sentiment analysis), les triggers atteignent 0.04-0.12 d'accuracy. L'entraînement adversarial améliore la robustesse de 0.12 à 0.48.

Lire la source

Ton avis ?

Sécurité IA Alignement

Résumé généré par Claude — vérifié par l'humain

Universal Adversarial Triggers

Autres angles sur ce sujet