Asking Back: Interaction-Layer Antidistillation Watermarks
Signal
78
Hype
15
En 3 lignesNouvelle approche de watermarking contre la distillation non autorisée d'LLM : des marqueurs comportementaux (questions de suivi, variantes basse fréquence, reformulations) injectés via prompt système. Testée sur 63 modèles LoRA distillés de Llama-3.3-70B, avec transfert de 88,9% (Gemma) à 45,2% (Qwen). Robustesse validée contre paraphrasage DIPPER et étude utilisateur (N=20) confirmant l'imperceptibilité.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain