arXiv cs.CL·5 juin 2026

CHASE: Adversarial Red-Blue Teaming for Improving LLM Safety using Reinforcement Learning

Signal

Hype

En 3 lignesCHASE est un framework de red-blue teaming co-évolutif qui entraîne un attaquant et un défenseur via GRPO pour améliorer la robustesse des LLM contre les attaques par réécriture de prompts (persona modulation, framing fictionnel). Évalué sur BeaverTails et JailbreakBench, il réduit le score StrongREJECT de 43,2% sans faux refus sur prompts bénins.

Lire la source

Ton avis ?

Sécurité IA Alignement Reinforcement learning Évaluations

Résumé généré par Claude — vérifié par l'humain

CHASE: Adversarial Red-Blue Teaming for Improving LLM Safety using Reinforcement Learning

Autres angles sur ce sujet