Retour au feed
arXiv cs.CL·

How Far Will They Go? Red-Teaming Online Influence with Large Language Models

Signal
78
Hype
25
En 3 lignesÉtude de red-teaming sur 30+ LLMs open-source (10 familles, 5 pays) mesurant leur capacité à générer du contenu politique biaisé via des jailbreaks. Résultats : asymétries systématiques (biais gauche), contraction des Overton Windows avec la taille du modèle, variations régionales marquées, efficacité variable des jailbreaks selon les familles.
Lire la source
Ton avis ?
Sécurité IAAlignementOpen sourceÉvaluationsRégulation

Résumé généré par Claude — vérifié par l'humain