arXiv cs.AI·19 mai 2026

Ablating Safety: Mechanisms for Removing Alignment in Language Models for Security Applications

Signal

Hype

En 3 lignesÉtude sur le retrait contrôlé de l'alignement de sécurité dans les modèles de langage pour évaluer les capacités en cybersécurité. Compare prompting en contexte autorisé, projection de direction de refus et LoRA. Sur 60 tâches (Security-AR), la projection LoRA seule atteint 0,87 en score sécurité avec 0,83 en capacités générales, mais augmente la conformité dangereuse non autorisée.

Lire la source

Ton avis ?

Sécurité IA Alignement Fine-tuning Évaluations Benchmarks

Résumé généré par Claude — vérifié par l'humain

Ablating Safety: Mechanisms for Removing Alignment in Language Models for Security Applications

Autres angles sur ce sujet