arXiv cs.LG·17 juin 2026

Rift: A Conflict Signature for Deception in Language Models

Signal

Hype

En 3 lignesDes chercheurs identifient une signature interne de la tromperie dans les modèles de langage : les réponses mensongères affichent une rang résiduel 2.1-2.3x plus élevé que les réponses naïvement fausses. Cette signature détecte la déception avec 100% de précision sur GPT-2, Qwen2.5 et Phi-3, et transfère zero-shot entre familles de modèles et langues (AUC 0.933-1.0).

Lire la source

Ton avis ?

Sécurité IA Alignement Évaluations Papers

Résumé généré par Claude — vérifié par l'humain

Rift: A Conflict Signature for Deception in Language Models

Autres angles sur ce sujet