Spectral Probe-Circuits: A Three-Step Recipe for Identifying Attention-Head Circuits in Pretrained Transformers
Signal
78
Hype
15
En 3 lignesMéthode pour identifier les circuits d'attention-heads dans les transformers pré-entraînés via un signal spectral (participation ratio intégré temporellement), un filtrage par motifs de tâche, et une ablation de groupe. Validée sur 51M à 7B paramètres, deux architectures, quatre pipelines. Découverte : circuit d'induction de 2-6 heads causalement nécessaire dans tous les modèles (94-100% de drop après ablation).Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain