arXiv cs.AI·19 mai 2026

MirrorBench: A Benchmark to Evaluate Conversational User-Proxy Agents for Human-Likeness

Signal

Hype

En 3 lignesMirrorBench est un framework de benchmark pour évaluer les agents proxy utilisateur dans les systèmes conversationnels. Il combine 6 métriques (MATTR, Yule's K, HD-D, GTEval, Pairwise Indistinguishability, Rubric-and-Reason) pour mesurer le réalisme des énoncés générés par des LLM simulant des utilisateurs, sur 4 datasets publics. Code open-source disponible.

Lire la source

Ton avis ?

Agents IA Évaluations Benchmarks Prompt engineering

Résumé généré par Claude — vérifié par l'humain

MirrorBench: A Benchmark to Evaluate Conversational User-Proxy Agents for Human-Likeness

Autres angles sur ce sujet