Retour au feed
arXiv cs.AI·

MirrorBench: A Benchmark to Evaluate Conversational User-Proxy Agents for Human-Likeness

Signal
75
Hype
15
En 3 lignesMirrorBench est un framework de benchmark pour évaluer les agents proxy utilisateur dans les systèmes conversationnels. Il combine 6 métriques (MATTR, Yule's K, HD-D, GTEval, Pairwise Indistinguishability, Rubric-and-Reason) pour mesurer le réalisme des énoncés générés par des LLM simulant des utilisateurs, sur 4 datasets publics. Code open-source disponible.
Lire la source
Ton avis ?
Agents IAÉvaluationsBenchmarksPrompt engineering

Résumé généré par Claude — vérifié par l'humain