Measuring the Depth of LLM Unlearning via Activation Patching
Signal
78
Hype
18
En 3 lignesNouvelle métrique UDS (Unlearning Depth Score) pour évaluer si les connaissances sont vraiment effacées dans les LLM. Via activation patching, UDS mesure la profondeur mécanique de l'oubli couche par couche. Évaluation sur 150 modèles et 8 méthodes : UDS surpasse 20 métriques existantes en fidélité et robustesse.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain