arXiv cs.CL·25 mai 2026

How Far Will They Go? Red-Teaming Online Influence with Large Language Models

Signal

Hype

En 3 lignesÉtude de red-teaming sur 30+ LLMs open-source (10 familles, 5 pays) mesurant leur capacité à générer du contenu politique biaisé via des jailbreaks. Résultats : asymétries systématiques (biais gauche), contraction des Overton Windows avec la taille du modèle, variations régionales marquées, efficacité variable des jailbreaks selon les familles.

Lire la source

Ton avis ?

Sécurité IA Alignement Open source Évaluations Régulation

Résumé généré par Claude — vérifié par l'humain

How Far Will They Go? Red-Teaming Online Influence with Large Language Models

Autres angles sur ce sujet