Evolve the Method, Not the Prompts: Evolutionary Synthesis of Jailbreak Attacks on LLMs
Signal
75
Hype
35
En 3 lignesEvoSynth, un framework multi-agent autonome, optimise les attaques jailbreak en espace de code exécutable plutôt qu'en espace de prompts. Le système évolue et corrige itérativement des algorithmes d'attaque basés sur le code. Résultats : 85,5% de taux de succès contre Claude-Sonnet-4.5, 95,9% en moyenne sur tous les modèles testés.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain