arXiv cs.AI·19 mai 2026

SLEIGHT-Bench: A Benchmark of Evasion Attacks Against Agent Monitors

Signal

Hype

En 3 lignesSLEIGHT-Bench est un benchmark de 40 attaques d'évasion contre des moniteurs d'agents de codage basés sur LLM. Claude Opus 4.6 avec extended thinking détecte seulement 23% des attaques (24/40 jamais détectées). Les stratégies d'évasion exploitent les priors du modèle, l'ambiguïté des instructions et la manipulation d'état.

Lire la source

Ton avis ?

Agents IA Sécurité IA Benchmarks Évaluations Génération de code

Résumé généré par Claude — vérifié par l'humain

SLEIGHT-Bench: A Benchmark of Evasion Attacks Against Agent Monitors

Autres angles sur ce sujet