arXiv cs.AI·19 mai 2026

Unlearning Isn't Deletion: Investigating Reversibility of Machine Unlearning in LLMs

Signal

Hype

En 3 lignesÉtude montrant que l'oubli dans les LLM supprime l'information en surface seulement : un fine-tuning minimal restaure le comportement original. Framework d'analyse au niveau représentationnel (PCA, CKA, Fisher information) révèle quatre régimes d'oubli selon réversibilité et catastrophicité. Identifie cas d'oubli irréversible ciblé.

Lire la source

Ton avis ?

Sécurité IA Alignement Évaluations Papers

Résumé généré par Claude — vérifié par l'humain

Unlearning Isn't Deletion: Investigating Reversibility of Machine Unlearning in LLMs

Autres angles sur ce sujet