Retour au feed
arXiv cs.CL·

CHASE: Adversarial Red-Blue Teaming for Improving LLM Safety using Reinforcement Learning

Signal
82
Hype
18
En 3 lignesCHASE est un framework de red-blue teaming co-évolutif qui entraîne un attaquant et un défenseur via GRPO pour améliorer la robustesse des LLM contre les attaques par réécriture de prompts (persona modulation, framing fictionnel). Évalué sur BeaverTails et JailbreakBench, il réduit le score StrongREJECT de 43,2% sans faux refus sur prompts bénins.
Lire la source
Ton avis ?
Sécurité IAAlignementReinforcement learningÉvaluations

Résumé généré par Claude — vérifié par l'humain