arXiv cs.CL·19 mai 2026

Red-Bandit: Test-Time Adaptation for LLM Red-Teaming via Bandit-Guided LoRA Experts

Signal

Hype

En 3 lignesRed-Bandit est un framework de red-teaming qui adapte en temps réel des experts LoRA spécialisés dans différents styles d'attaque (manipulation, argot) via apprentissage par renforcement. Un algorithme de bandit multi-bras sélectionne dynamiquement l'expert optimal selon la sécurité des réponses du modèle cible. Résultats SOTA sur AdvBench avec prompts plus lisibles.

Lire la source

Ton avis ?

Sécurité IA Fine-tuning Reinforcement learning Évaluations Papers

Résumé généré par Claude — vérifié par l'humain

Red-Bandit: Test-Time Adaptation for LLM Red-Teaming via Bandit-Guided LoRA Experts

Autres angles sur ce sujet