arXiv cs.CL·20 May 2026

DECOR: Auditing LLM Deception via Information Manipulation Theory

Signal

Hype

In three linesDECOR is a multi-agent framework for auditing deception in LLMs by decomposing contexts into atomic informational units and scoring four manipulation dimensions (omission, focus-shifting, meaning-obscuring). Tested on 15 frontier models, it achieves state-of-the-art deception detection on single and multi-turn benchmarks with interpretable manipulation profiles.

Read source

Your take?

Multi-agent AI safety Alignment Evals Benchmarks

Summary generated by Claude — human-verified

DECOR: Auditing LLM Deception via Information Manipulation Theory

Other angles on this story