arXiv cs.AI·19 mai 2026

CAREBench: Evaluating LLMs' Emotion Understanding by Assessing Cognitive Appraisal Reasoning

Signal

Hype

En 3 lignesCAREBench est un benchmark évaluant la compréhension émotionnelle des LLMs via le raisonnement d'appraisal cognitif. Testé sur 6 modèles avec annotations complètes de chaînes inférentielles (perspectives première/troisième personne), il révèle que les modèles forts égalent les humains sur certaines tâches mais échouent sur le raisonnement d'appraisal et la reconnaissance d'émotions positives.

Lire la source

Ton avis ?

Benchmarks Évaluations Raisonnement

Résumé généré par Claude — vérifié par l'humain

CAREBench: Evaluating LLMs' Emotion Understanding by Assessing Cognitive Appraisal Reasoning

Autres angles sur ce sujet