Red-Bandit: Test-Time Adaptation for LLM Red-Teaming via Bandit-Guided LoRA Experts
Signal
78
Hype
25
En 3 lignesRed-Bandit est un framework de red-teaming qui adapte en temps réel des experts LoRA spécialisés dans différents styles d'attaque (manipulation, argot) via apprentissage par renforcement. Un algorithme de bandit multi-bras sélectionne dynamiquement l'expert optimal selon la sécurité des réponses du modèle cible. Résultats SOTA sur AdvBench avec prompts plus lisibles.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain