Linear Ensembles Wash Away Watermarks: On the Fragility of Distributional Perturbations in LLMs
Signal
82
Hype
25
En 3 lignesDes chercheurs démontrent que les watermarks statistiques dans les LLM sont vulnérables aux ensembles linéaires. En moyennant les distributions de probabilité de 3-5 modèles, les perturbations introduites par les watermarks s'annulent. La méthode WASH (Watermark Attenuation via Statistical Hybridisation) supprime la détection sur 6 schémas de watermarking testés, réduisant les z-scores de 5-300 à <2 (seuil: 4).Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain