arXiv cs.CL·19 mai 2026

Unlearning Isn't Deletion: Investigating Reversibility of Machine Unlearning in LLMs

Signal

Hype

En 3 lignesÉtude montrant que l'oubli dans les LLM supprime l'information en surface seulement : les modèles retrouvent leur comportement original via un fine-tuning minimal. Les auteurs proposent un cadre d'analyse au niveau représentationnel (PCA, CKA, Fisher information) pour évaluer la véritable suppression de données et identifient quatre régimes d'oubli selon réversibilité et catastrophicité.

Lire la source

Ton avis ?

Papers Sécurité IA Alignement Évaluations

Résumé généré par Claude — vérifié par l'humain

Unlearning Isn't Deletion: Investigating Reversibility of Machine Unlearning in LLMs

Autres angles sur ce sujet