DECOR: Auditing LLM Deception via Information Manipulation Theory
Signal
78
Hype
25
En 3 lignesDECOR est un framework multi-agent pour auditer la déception dans les LLM en décomposant les contextes en unités informationnelles atomiques et en évaluant quatre dimensions de manipulation (omission, focalisation, obscurcissement). Testé sur 15 modèles frontier, il atteint l'état de l'art en détection de déception mono et multi-tour avec profils d'manipulation interprétables.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain