arXiv cs.AI·19 mai 2026

Distinguishable Deletion: Unifying Knowledge Erasure and Refusal for Large Language Model Unlearning

Signal

Hype

En 3 lignesDistinguishable Deletion (D²) unifie suppression de connaissance et refus pour l'oubli des LLM. La méthode utilise un index énergétique pour effacer les connaissances indésirables dans les représentations latentes plutôt que des tokens spécifiques, évitant la suppression biaisée et la réémergence de contenu nuisible. Energy-based Unlearning Alignment (EUA) applique ce mécanisme à l'entraînement et l'inférence.

Lire la source

Ton avis ?

Sécurité IA Alignement Papers Reinforcement learning

Résumé généré par Claude — vérifié par l'humain

Distinguishable Deletion: Unifying Knowledge Erasure and Refusal for Large Language Model Unlearning

Autres angles sur ce sujet