Beyond a Single Direction: Chain-of-Thought Disrupts Simple Steering of Refusal
Signal
78
Hype
25
En 3 lignesLes modèles de raisonnement (LRM) encodent le refus conjointement dans les activations résiduelles et la chaîne de pensée (CoT). Sur DeepSeek-R1-Distill-LLaMA-8B, le steering d'activation inverse le refus dans 39% des cas avec CoT fixe, mais 70% sans CoT. Régénérer la CoT sous steering atteint 94% de succès, révélant que le refus est distribué entre activations et CoT.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain