arXiv cs.LG·21 May 2026

Spectral Unforgetting: Post-Hoc Recovery of Damaged Capabilities Without Retraining

Signal

Hype

In three linesDG-Hard, a spectral post-hoc method, recovers capabilities damaged by fine-tuning without retraining. It applies hard SVD thresholding (Donoho-Gavish) to weight matrices to isolate task-aligned signal from residual noise. Tested on 14 (model, task) settings and 9 benchmarks, it also restores safety alignment degraded by benign fine-tuning.

Read source

Your take?

Fine-tuning AI safety Alignment Papers

Summary generated by Claude — human-verified

Spectral Unforgetting: Post-Hoc Recovery of Damaged Capabilities Without Retraining

Other angles on this story