arXiv cs.CL·22 mai 2026

Harder to Defend: Towards Chinese Toxicity Attacks via Implicit Enhancement and Obfuscation Rewriting

Signal

Hype

En 3 lignesÉtude arXiv sur les attaques de toxicité implicite en chinois (CITA). Framework de red-teaming en trois étapes (apprentissage d'intent nuisible, amélioration d'implicitude, réécriture d'obfuscation) générant des données d'évaluation. Sept détecteurs testés montrent 69,48% de taux d'erreur moyen. Modèle de défense CITD fine-tuné sur données CITA améliore la robustesse.

Lire la source

Ton avis ?

Sécurité IA Alignement Évaluations Benchmarks

Résumé généré par Claude — vérifié par l'humain

Harder to Defend: Towards Chinese Toxicity Attacks via Implicit Enhancement and Obfuscation Rewriting

Autres angles sur ce sujet