MirrorBench: A Benchmark to Evaluate Conversational User-Proxy Agents for Human-Likeness
Signal
75
Hype
15
En 3 lignesMirrorBench est un framework de benchmark pour évaluer les agents proxy utilisateur dans les systèmes conversationnels. Il combine 6 métriques (MATTR, Yule's K, HD-D, GTEval, Pairwise Indistinguishability, Rubric-and-Reason) pour mesurer le réalisme des énoncés générés par des LLM simulant des utilisateurs, sur 4 datasets publics. Code open-source disponible.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain