Reverse-Engineering Model Editing on Language Models
Signal
82
Hype
15
En 3 lignesDes chercheurs révèlent une vulnérabilité critique des méthodes de model editing : les mises à jour de paramètres permettent de récupérer les données éditées via une attaque KSTER exploitant la structure low-rank. Une défense par « subspace camouflage » est proposée pour obfusquer les empreintes sans compromettre l'utilité.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain