Harder to Defend: Towards Chinese Toxicity Attacks via Implicit Enhancement and Obfuscation Rewriting
Signal
72
Hype
18
En 3 lignesÉtude arXiv sur les attaques de toxicité implicite en chinois (CITA). Framework de red-teaming en trois étapes (apprentissage d'intent nuisible, amélioration d'implicitude, réécriture d'obfuscation) générant des données d'évaluation. Sept détecteurs testés montrent 69,48% de taux d'erreur moyen. Modèle de défense CITD fine-tuné sur données CITA améliore la robustesse.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain