Retour au feed
arXiv cs.AI·

Babel: Jailbreaking Safety Attention via Obfuscation Distribution Optimized Sampling

Signal
75
Hype
35
En 3 lignesBabel est une méthode de jailbreak black-box qui exploite une vulnérabilité dans l'alignement de sécurité des LLM : la sécurité repose sur peu de têtes d'attention éparses, laissant l'espace représentationnel faiblement surveillé. Via obfuscation optimisée et raffinement itératif, Babel atteint 82,67% de succès sur GPT-4o et 78,33% sur Claude-3-5-haiku en ~40 requêtes.
Lire la source
Ton avis ?
Sécurité IAAlignementGPTClaudeÉvaluations

Résumé généré par Claude — vérifié par l'humain