Retour au feed
arXiv cs.AI·

Beyond a Single Direction: Chain-of-Thought Disrupts Simple Steering of Refusal

Signal
78
Hype
25
En 3 lignesLes modèles de raisonnement (LRM) encodent le refus conjointement dans les activations résiduelles et la chaîne de pensée (CoT). Sur DeepSeek-R1-Distill-LLaMA-8B, le steering d'activation inverse le refus dans 39% des cas avec CoT fixe, mais 70% sans CoT. Régénérer la CoT sous steering atteint 94% de succès, révélant que le refus est distribué entre activations et CoT.
Lire la source
Ton avis ?
RaisonnementSécurité IAAlignementDeepSeek

Résumé généré par Claude — vérifié par l'humain