arXiv cs.CL·20 mai 2026

DECOR: Auditing LLM Deception via Information Manipulation Theory

Signal

Hype

En 3 lignesDECOR est un framework multi-agent pour auditer la déception dans les LLM en décomposant les contextes en unités informationnelles atomiques et en évaluant quatre dimensions de manipulation (omission, focalisation, obscurcissement). Testé sur 15 modèles frontier, il atteint l'état de l'art en détection de déception mono et multi-tour avec profils d'manipulation interprétables.

Lire la source

Ton avis ?

Multi-agents Sécurité IA Alignement Évaluations Benchmarks

Résumé généré par Claude — vérifié par l'humain

DECOR: Auditing LLM Deception via Information Manipulation Theory

Autres angles sur ce sujet