Retour au feed
arXiv cs.LG·

Before Fusion, Ask What to Keep: Contextual Calibration of Multimodal Signals

Signal
72
Hype
15
En 3 lignesMéthode de calibration des signaux multimodaux avant fusion. Un module compact compare chaque modalité (langage, son, vision) avec les autres, extrait les signaux de support et conflit cross-source, et module les représentations avant leur combinaison. Testé sur 5 benchmarks (sentiment, reconnaissance d'actions, détection d'événements audio-visuels, classification d'émotions) avec améliorations consistantes.
Lire la source
Ton avis ?
VisionVoixMulti-agentsBenchmarks

Résumé généré par Claude — vérifié par l'humain