Distinguishable Deletion: Unifying Knowledge Erasure and Refusal for Large Language Model Unlearning
Signal
72
Hype
25
En 3 lignesDistinguishable Deletion (D²) unifie suppression de connaissance et refus pour l'oubli des LLM. La méthode utilise un index énergétique pour effacer les connaissances indésirables dans les représentations latentes plutôt que des tokens spécifiques, évitant la suppression biaisée et la réémergence de contenu nuisible. Energy-based Unlearning Alignment (EUA) applique ce mécanisme à l'entraînement et l'inférence.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain