When Context Flips, Safety Breaks: Diagnosing Brittle Safety in Aligned Language Models
Signal
78
Hype
22
En 3 lignesÉtude arXiv montrant que les modèles de langage alignés échouent à adapter leur comportement sécuritaire quand le contexte change (« brittle safety »). Test sur 12 modèles révèle un écart sécurité-bon sens de +17.4 pp. Les guardrails actuels ne détectent pas les inversions de conséquences ; un validateur conscient de l'état les capture tous.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain