Retour au feed
arXiv cs.AI·

CAREBench: Evaluating LLMs' Emotion Understanding by Assessing Cognitive Appraisal Reasoning

Signal
72
Hype
25
En 3 lignesCAREBench est un benchmark évaluant la compréhension émotionnelle des LLMs via le raisonnement d'appraisal cognitif. Testé sur 6 modèles avec annotations complètes de chaînes inférentielles (perspectives première/troisième personne), il révèle que les modèles forts égalent les humains sur certaines tâches mais échouent sur le raisonnement d'appraisal et la reconnaissance d'émotions positives.
Lire la source
Ton avis ?
BenchmarksÉvaluationsRaisonnement

Résumé généré par Claude — vérifié par l'humain