When LLMs Learn to Be Consistently Wrong: A Multi-Model Study of Linear Representations of Synthetic Deception
Signal
82
Hype
15
En 3 lignesÉtude multi-modèles (Pythia-1.4B, Gemma-2, Qwen2.5-7B, Llama-3.1-8B) sur la représentation linéaire de la malhonnêteté synthétique. Des sondes linéaires détectent le mensonge avec AUC ≥0.99 dès les couches 1-3. Les représentations de malhonnêteté se consolident progressivement en couches profondes, avec implications pour la surveillance basée sur l'activation.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain