PAST2HARM: A Simple Adaptive Past Tense Attack for Jailbreaking Multimodal AI
Signal
75
Hype
35
En 3 lignesPAST2HARM est une attaque de jailbreak adaptative exploitant la reformulation au passé pour contourner les garde-fous de modèles multimodaux texte-image. Testée sur Gemini Nano, GPT Image 2 et SD XL, elle atteint 83%, 67% et 100% de taux de succès. L'attaque génère contenu sexuel explicite, désinformation politique et discours haineux.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain