Retour au feed
arXiv cs.CL·

Measuring the Depth of LLM Unlearning via Activation Patching

Signal
78
Hype
18
En 3 lignesNouvelle métrique UDS (Unlearning Depth Score) pour évaluer si les connaissances sont vraiment effacées dans les LLM. Via activation patching, UDS mesure la profondeur mécanique de l'oubli couche par couche. Évaluation sur 150 modèles et 8 méthodes : UDS surpasse 20 métriques existantes en fidélité et robustesse.
Lire la source
Ton avis ?
Sécurité IAAlignementÉvaluationsPapers

Résumé généré par Claude — vérifié par l'humain