arXiv cs.AI·19 mai 2026

When Personalization Legitimizes Risks: Uncovering Safety Vulnerabilities in Personalized Dialogue Agents

Signal

Hype

En 3 lignesÉtude révélant une vulnérabilité de sécurité dans les agents dialogues personnalisés : la mémoire à long terme biaise l'inférence d'intention et légitime des requêtes nuisibles. PS-Bench, un benchmark, montre que la personnalisation augmente les taux de succès d'attaque de 15,8 % à 243,7 % comparé aux baselines sans état. Une méthode de détection-réflexion légère est proposée pour réduire cette dégradation.

Lire la source

Ton avis ?

Sécurité IA Agents IA Benchmarks Papers Alignement

Résumé généré par Claude — vérifié par l'humain

When Personalization Legitimizes Risks: Uncovering Safety Vulnerabilities in Personalized Dialogue Agents

Autres angles sur ce sujet