Retour au feed
arXiv cs.AI·

Reverse-Engineering Model Editing on Language Models

Signal
82
Hype
15
En 3 lignesDes chercheurs révèlent une vulnérabilité critique des méthodes de model editing : les mises à jour de paramètres permettent de récupérer les données éditées via une attaque KSTER exploitant la structure low-rank. Une défense par « subspace camouflage » est proposée pour obfusquer les empreintes sans compromettre l'utilité.
Lire la source
Ton avis ?
Sécurité IAAlignementPapers

Résumé généré par Claude — vérifié par l'humain