Evaluating using Mock Tool Calls to Quarantine Untrusted Prompt Inputs
Signal
72
Hype
15
En 3 lignesÉtude arXiv sur la sécurité des LLM face aux entrées non fiables. Les chercheurs testent l'hypothèse que wrapper du contenu non fiable dans des appels d'outils simulés améliore la robustesse. Résultat : sur 7 modèles et 3 tâches de jugement, cette approche échoue et augmente souvent les taux de succès des attaques, inversant la hiérarchie d'instructions attendue.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain