CAREBench: Evaluating LLMs' Emotion Understanding by Assessing Cognitive Appraisal Reasoning
Signal
72
Hype
25
En 3 lignesCAREBench est un benchmark évaluant la compréhension émotionnelle des LLMs via le raisonnement d'appraisal cognitif. Testé sur 6 modèles avec annotations complètes de chaînes inférentielles (perspectives première/troisième personne), il révèle que les modèles forts égalent les humains sur certaines tâches mais échouent sur le raisonnement d'appraisal et la reconnaissance d'émotions positives.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain