arXiv cs.AI·19 May 2026

Unlearning Isn't Deletion: Investigating Reversibility of Machine Unlearning in LLMs

Signal

Hype

In three linesStudy shows unlearning in LLMs merely suppresses information: minimal fine-tuning restores original behavior. Representation-level analysis framework (PCA, CKA, Fisher information) reveals four forgetting regimes by reversibility and catastrophicity. Identifies cases of seemingly irreversible targeted forgetting.

Read source

Your take?

AI safety Alignment Evals Papers

Summary generated by Claude — human-verified

Unlearning Isn't Deletion: Investigating Reversibility of Machine Unlearning in LLMs

Other angles on this story