arXiv cs.AI·19 mai 2026

Babel: Jailbreaking Safety Attention via Obfuscation Distribution Optimized Sampling

Signal

Hype

En 3 lignesBabel est une méthode de jailbreak black-box qui exploite une vulnérabilité dans l'alignement de sécurité des LLM : la sécurité repose sur peu de têtes d'attention éparses, laissant l'espace représentationnel faiblement surveillé. Via obfuscation optimisée et raffinement itératif, Babel atteint 82,67% de succès sur GPT-4o et 78,33% sur Claude-3-5-haiku en ~40 requêtes.

Lire la source

Ton avis ?

Sécurité IA Alignement GPT Claude Évaluations

Résumé généré par Claude — vérifié par l'humain

Babel: Jailbreaking Safety Attention via Obfuscation Distribution Optimized Sampling

Autres angles sur ce sujet