arXiv cs.AI·19 mai 2026

Asking Back: Interaction-Layer Antidistillation Watermarks

Signal

Hype

En 3 lignesNouvelle approche de watermarking contre la distillation non autorisée d'LLM : des marqueurs comportementaux (questions de suivi, variantes basse fréquence, reformulations) injectés via prompt système. Testée sur 63 modèles LoRA distillés de Llama-3.3-70B, avec transfert de 88,9% (Gemma) à 45,2% (Qwen). Robustesse validée contre paraphrasage DIPPER et étude utilisateur (N=20) confirmant l'imperceptibilité.

Lire la source

Ton avis ?

Sécurité IA Alignement Llama Benchmarks Papers

Résumé généré par Claude — vérifié par l'humain

Asking Back: Interaction-Layer Antidistillation Watermarks

Autres angles sur ce sujet