Retour au feed
arXiv cs.CL·

Evolve the Method, Not the Prompts: Evolutionary Synthesis of Jailbreak Attacks on LLMs

Signal
75
Hype
35
En 3 lignesEvoSynth, un framework multi-agent autonome, optimise les attaques jailbreak en espace de code exécutable plutôt qu'en espace de prompts. Le système évolue et corrige itérativement des algorithmes d'attaque basés sur le code. Résultats : 85,5% de taux de succès contre Claude-Sonnet-4.5, 95,9% en moyenne sur tous les modèles testés.
Lire la source
Ton avis ?
Agents IAMulti-agentsClaudeSécurité IAPapers

Résumé généré par Claude — vérifié par l'humain