arXiv cs.AI·19 mai 2026

Reverse-Engineering Model Editing on Language Models

Signal

Hype

En 3 lignesDes chercheurs révèlent une vulnérabilité critique des méthodes de model editing : les mises à jour de paramètres permettent de récupérer les données éditées via une attaque KSTER exploitant la structure low-rank. Une défense par « subspace camouflage » est proposée pour obfusquer les empreintes sans compromettre l'utilité.

Lire la source

Ton avis ?

Sécurité IA Alignement Papers

Résumé généré par Claude — vérifié par l'humain

Reverse-Engineering Model Editing on Language Models

Autres angles sur ce sujet