Retour au feed
arXiv cs.CL·

Red-Bandit: Test-Time Adaptation for LLM Red-Teaming via Bandit-Guided LoRA Experts

Signal
78
Hype
25
En 3 lignesRed-Bandit est un framework de red-teaming qui adapte en temps réel des experts LoRA spécialisés dans différents styles d'attaque (manipulation, argot) via apprentissage par renforcement. Un algorithme de bandit multi-bras sélectionne dynamiquement l'expert optimal selon la sécurité des réponses du modèle cible. Résultats SOTA sur AdvBench avec prompts plus lisibles.
Lire la source
Ton avis ?
Sécurité IAFine-tuningReinforcement learningÉvaluationsPapers

Résumé généré par Claude — vérifié par l'humain