Retour au feed
arXiv cs.AI·

Ablating Safety: Mechanisms for Removing Alignment in Language Models for Security Applications

Signal
72
Hype
15
En 3 lignesÉtude sur le retrait contrôlé de l'alignement de sécurité dans les modèles de langage pour évaluer les capacités en cybersécurité. Compare prompting en contexte autorisé, projection de direction de refus et LoRA. Sur 60 tâches (Security-AR), la projection LoRA seule atteint 0,87 en score sécurité avec 0,83 en capacités générales, mais augmente la conformité dangereuse non autorisée.
Lire la source
Ton avis ?
Sécurité IAAlignementFine-tuningÉvaluationsBenchmarks

Résumé généré par Claude — vérifié par l'humain