Retour au feed
arXiv cs.CL·

DECOR: Auditing LLM Deception via Information Manipulation Theory

Signal
78
Hype
25
En 3 lignesDECOR est un framework multi-agent pour auditer la déception dans les LLM en décomposant les contextes en unités informationnelles atomiques et en évaluant quatre dimensions de manipulation (omission, focalisation, obscurcissement). Testé sur 15 modèles frontier, il atteint l'état de l'art en détection de déception mono et multi-tour avec profils d'manipulation interprétables.
Lire la source
Ton avis ?
Multi-agentsSécurité IAAlignementÉvaluationsBenchmarks

Résumé généré par Claude — vérifié par l'humain