arXiv cs.AI·28 mai 2026

When Context Flips, Safety Breaks: Diagnosing Brittle Safety in Aligned Language Models

Signal

Hype

En 3 lignesÉtude arXiv montrant que les modèles de langage alignés échouent à adapter leur comportement sécuritaire quand le contexte change (« brittle safety »). Test sur 12 modèles révèle un écart sécurité-bon sens de +17.4 pp. Les guardrails actuels ne détectent pas les inversions de conséquences ; un validateur conscient de l'état les capture tous.

Lire la source

Ton avis ?

Sécurité IA Alignement Évaluations Benchmarks

Résumé généré par Claude — vérifié par l'humain

When Context Flips, Safety Breaks: Diagnosing Brittle Safety in Aligned Language Models

Autres angles sur ce sujet