Retour au feed
arXiv cs.AI·

Asking Back: Interaction-Layer Antidistillation Watermarks

Signal
78
Hype
15
En 3 lignesNouvelle approche de watermarking contre la distillation non autorisée d'LLM : des marqueurs comportementaux (questions de suivi, variantes basse fréquence, reformulations) injectés via prompt système. Testée sur 63 modèles LoRA distillés de Llama-3.3-70B, avec transfert de 88,9% (Gemma) à 45,2% (Qwen). Robustesse validée contre paraphrasage DIPPER et étude utilisateur (N=20) confirmant l'imperceptibilité.
Lire la source
Ton avis ?
Sécurité IAAlignementLlamaBenchmarksPapers

Résumé généré par Claude — vérifié par l'humain