Retour au feed
arXiv cs.CL·

Same Model, Different Weakness: How Language and Modality Reshape the Jailbreak Attack Surface in Frontier MLLMs

Signal
78
Hype
25
En 3 lignesÉtude de red-teaming multilingue sur quatre MLLMs (Claude Sonnet 4.5, GPT-5, Pixtral Large, Qwen Omni) révélant que la vulnérabilité aux jailbreaks varie selon la langue. Les attaques par rôle-play sont moins efficaces en espagnol mexicain, tandis que les attaques visuelles le deviennent plus. Les classements de sécurité ne se conservent pas entre langues.
Lire la source
Ton avis ?
Sécurité IAAlignementÉvaluationsVision

Résumé généré par Claude — vérifié par l'humain