Retour au feed
arXiv cs.CL·

Harder to Defend: Towards Chinese Toxicity Attacks via Implicit Enhancement and Obfuscation Rewriting

Signal
72
Hype
18
En 3 lignesÉtude arXiv sur les attaques de toxicité implicite en chinois (CITA). Framework de red-teaming en trois étapes (apprentissage d'intent nuisible, amélioration d'implicitude, réécriture d'obfuscation) générant des données d'évaluation. Sept détecteurs testés montrent 69,48% de taux d'erreur moyen. Modèle de défense CITD fine-tuné sur données CITA améliore la robustesse.
Lire la source
Ton avis ?
Sécurité IAAlignementÉvaluationsBenchmarks

Résumé généré par Claude — vérifié par l'humain