Retour au feed
arXiv cs.LG·

$\Psi$-Bench: Evaluating Persona-Sensitive Influencing in Persuasive Dialogues

Signal
72
Hype
28
En 3 lignesΨ-Bench est un benchmark évaluant la capacité des LLMs à influencer des utilisateurs via dialogue persuasif. 10 modèles frontière testés sur 3 scénarios réalistes. Accès aux profils utilisateur améliore performance de 18,24%. Code disponible.
Lire la source
Ton avis ?
BenchmarksPrompt engineeringAgents IA

Résumé généré par Claude — vérifié par l'humain