Can you jailbreak Llama 3.1 8B? (Red-Teaming Challenge)
Signal
55
Hype
45
En 3 lignesUn chercheur propose un défi de red-teaming sur Llama 3.1 8B pour tester SAFi, un moteur de gouvernance runtime censé forcer l'alignement des agents autonomes. 10 prompts pour faire dévier un tuteur socratique de ses directives (donner réponses directes ou sortir du sujet science/math). Code open-source disponible.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain