Retour au feed
arXiv cs.AI·

VISAFF: Speaker-Centered Visual Affective Feature Learning for Emotion Recognition in Conversation

Signal
72
Hype
25
En 3 lignesVISAFF est un framework pour la reconnaissance d'émotions en conversation (ERC) utilisant des modèles vision-langage. Il combine deux étapes : ancrage affectif centré sur le locuteur et complémentation affective guidée par la fiabilité. L'approche sans fine-tuning exploite les capacités de raisonnement de VLMs gelés, intégrant signaux visuels, textuels et acoustiques pour améliorer la précision.
Lire la source
Ton avis ?
VisionMulti-agentsPapersÉvaluations

Résumé généré par Claude — vérifié par l'humain