Retour au feed
arXiv cs.LG·

Rift: A Conflict Signature for Deception in Language Models

Signal
82
Hype
25
En 3 lignesDes chercheurs identifient une signature interne de la tromperie dans les modèles de langage : les réponses mensongères affichent une rang résiduel 2.1-2.3x plus élevé que les réponses naïvement fausses. Cette signature détecte la déception avec 100% de précision sur GPT-2, Qwen2.5 et Phi-3, et transfère zero-shot entre familles de modèles et langues (AUC 0.933-1.0).
Lire la source
Ton avis ?
Sécurité IAAlignementÉvaluationsPapers

Résumé généré par Claude — vérifié par l'humain