Retour au feed
arXiv cs.LG·

When LLMs Learn to Be Consistently Wrong: A Multi-Model Study of Linear Representations of Synthetic Deception

Signal
82
Hype
15
En 3 lignesÉtude multi-modèles (Pythia-1.4B, Gemma-2, Qwen2.5-7B, Llama-3.1-8B) sur la représentation linéaire de la malhonnêteté synthétique. Des sondes linéaires détectent le mensonge avec AUC ≥0.99 dès les couches 1-3. Les représentations de malhonnêteté se consolident progressivement en couches profondes, avec implications pour la surveillance basée sur l'activation.
Lire la source
Ton avis ?
PapersSécurité IAAlignementÉvaluationsRaisonnement

Résumé généré par Claude — vérifié par l'humain