Spectral Unforgetting: Post-Hoc Recovery of Damaged Capabilities Without Retraining
Signal
78
Hype
18
En 3 lignesDG-Hard, une méthode spectrale post-hoc, récupère les capacités endommagées par le fine-tuning sans réentraînement. Elle applique un seuillage SVD dur (Donoho-Gavish) aux matrices de poids pour isoler le signal aligné sur la tâche du bruit résiduel. Testée sur 14 configurations (modèle, tâche) et 9 benchmarks, elle restaure aussi l'alignement de sécurité dégradé.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain