arXiv cs.CL·1 juin 2026

Linear Ensembles Wash Away Watermarks: On the Fragility of Distributional Perturbations in LLMs

Signal

Hype

En 3 lignesDes chercheurs démontrent que les watermarks statistiques dans les LLM sont vulnérables aux ensembles linéaires. En moyennant les distributions de probabilité de 3-5 modèles, les perturbations introduites par les watermarks s'annulent. La méthode WASH (Watermark Attenuation via Statistical Hybridisation) supprime la détection sur 6 schémas de watermarking testés, réduisant les z-scores de 5-300 à <2 (seuil: 4).

Lire la source

Ton avis ?

Sécurité IA Alignement Papers Benchmarks

Résumé généré par Claude — vérifié par l'humain

Linear Ensembles Wash Away Watermarks: On the Fragility of Distributional Perturbations in LLMs

Autres angles sur ce sujet