$\Psi$-Bench: Evaluating Persona-Sensitive Influencing in Persuasive Dialogues
Signal
72
Hype
28
En 3 lignesΨ-Bench est un benchmark évaluant la capacité des LLMs à influencer des utilisateurs via dialogue persuasif. 10 modèles frontière testés sur 3 scénarios réalistes. Accès aux profils utilisateur améliore performance de 18,24%. Code disponible.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain