arXiv cs.CL·25 mai 2026

Same Model, Different Weakness: How Language and Modality Reshape the Jailbreak Attack Surface in Frontier MLLMs

Signal

Hype

En 3 lignesÉtude de red-teaming multilingue sur quatre MLLMs (Claude Sonnet 4.5, GPT-5, Pixtral Large, Qwen Omni) révélant que la vulnérabilité aux jailbreaks varie selon la langue. Les attaques par rôle-play sont moins efficaces en espagnol mexicain, tandis que les attaques visuelles le deviennent plus. Les classements de sécurité ne se conservent pas entre langues.

Lire la source

Ton avis ?

Sécurité IA Alignement Évaluations Vision

Résumé généré par Claude — vérifié par l'humain

Same Model, Different Weakness: How Language and Modality Reshape the Jailbreak Attack Surface in Frontier MLLMs

Autres angles sur ce sujet