arXiv cs.AI·27 mai 2026

Beyond a Single Direction: Chain-of-Thought Disrupts Simple Steering of Refusal

Signal

Hype

En 3 lignesLes modèles de raisonnement (LRM) encodent le refus conjointement dans les activations résiduelles et la chaîne de pensée (CoT). Sur DeepSeek-R1-Distill-LLaMA-8B, le steering d'activation inverse le refus dans 39% des cas avec CoT fixe, mais 70% sans CoT. Régénérer la CoT sous steering atteint 94% de succès, révélant que le refus est distribué entre activations et CoT.

Lire la source

Ton avis ?

Raisonnement Sécurité IA Alignement DeepSeek

Résumé généré par Claude — vérifié par l'humain

Beyond a Single Direction: Chain-of-Thought Disrupts Simple Steering of Refusal

Autres angles sur ce sujet