arXiv cs.CL·1 juin 2026

Evaluating using Mock Tool Calls to Quarantine Untrusted Prompt Inputs

Signal

Hype

En 3 lignesÉtude arXiv sur la sécurité des LLM face aux entrées non fiables. Les chercheurs testent l'hypothèse que wrapper du contenu non fiable dans des appels d'outils simulés améliore la robustesse. Résultat : sur 7 modèles et 3 tâches de jugement, cette approche échoue et augmente souvent les taux de succès des attaques, inversant la hiérarchie d'instructions attendue.

Lire la source

Ton avis ?

Sécurité IA Prompt engineering Évaluations Agents IA

Résumé généré par Claude — vérifié par l'humain

Evaluating using Mock Tool Calls to Quarantine Untrusted Prompt Inputs

Autres angles sur ce sujet