arXiv cs.AI·19 mai 2026

VISAFF: Speaker-Centered Visual Affective Feature Learning for Emotion Recognition in Conversation

Signal

Hype

En 3 lignesVISAFF est un framework pour la reconnaissance d'émotions en conversation (ERC) utilisant des modèles vision-langage. Il combine deux étapes : ancrage affectif centré sur le locuteur et complémentation affective guidée par la fiabilité. L'approche sans fine-tuning exploite les capacités de raisonnement de VLMs gelés, intégrant signaux visuels, textuels et acoustiques pour améliorer la précision.

Lire la source

Ton avis ?

Vision Multi-agents Papers Évaluations

Résumé généré par Claude — vérifié par l'humain

VISAFF: Speaker-Centered Visual Affective Feature Learning for Emotion Recognition in Conversation

Autres angles sur ce sujet