Ablating Safety: Mechanisms for Removing Alignment in Language Models for Security Applications
Signal
72
Hype
15
En 3 lignesÉtude sur le retrait contrôlé de l'alignement de sécurité dans les modèles de langage pour évaluer les capacités en cybersécurité. Compare prompting en contexte autorisé, projection de direction de refus et LoRA. Sur 60 tâches (Security-AR), la projection LoRA seule atteint 0,87 en score sécurité avec 0,83 en capacités générales, mais augmente la conformité dangereuse non autorisée.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain